前言

紙質文件長年存儲,是否堆積如山而佔用大量空間?紙介信息浩如煙海,查詢是否大費周折卻徒勞無功?過期的報紙、雜誌等紙質材料,是否猶如雞肋一般——食之無味,棄之可惜?

讓舊文件數碼化、電子化解決問題!卡爾研究咨詢有限公司為您服務!幫您解決煩惱!

本公司擁有大型掃瞄儀器和先進技術設備,提供的文字識別服務可將紙介信息資源數字化,將紙張上繁瑣冗長不便翻閱的文字轉換成為可以隨心所欲進行選取、檢索的電子文字。

本公司還能為各類雜誌、書籍製作電子版本,讓你的作品順應互聯網時代社會對媒體的新需求,走向网絡化,開闢网絡新市場。

本公司以低成本、高效率的優良品質竭誠為您服務,讓貴公司對欲「棄」不能的舊資源進行有效再利用,解決貴公司對紙質文件「食之無味,棄之可惜」的煩惱問題。

時代的需求,卓越的服務,期待著您英明的決策!

OCR是什麼

OCR(Optical Character Recognition),意思為光學字符識別,通稱為文字識別,它的工作原理是:通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的文字的過程。

OCR通過光學技術對字符進行自動識別和輸入,替代人工輸入漢字的工作,它可以使漢字信息高速輸入計算機,解決低速的信息輸入與高速信息處理之間的矛盾,進而提高整個計算機系統的效率。這種根據漢字人工編碼錄入漢字文本的方法,從根本上改變了人們對計算機漢字人工編碼錄入的概念。使人們不再困於繁重的鍵盤錄入漢字工作。只要將掃描的文本圖像輸入到計算機,就能通過OCR軟件自動產生漢字文本文件,這與手工鍵入的漢字效果是一樣的,但速度卻無法相提並論。

OCR的功能

中文文字識別技術(OCR)是文字錄入的重要軟件,是企業競爭情報系統信息採集工具之一,對紙質文件提供入庫起著關鍵性的核心作用。具體功能如下:

  • 辦公自動化中多體印刷漢字,英文,日文,韓文等文件資料自動輸入;
  • 建立漢字文獻檔案庫;
  • 語言處理中文書刊,資料的自動輸入;
  • 圖像文本的壓縮存儲、傳輸;
  • 資料的再版輸入。

OCR的特點與優勢

一、本公司採用的OCR技術具有四大特點
  • 漢英雙語同時混排,識別率高,居世界領先水平;
  • 可以識別黑白、灰度、彩色圖像,可以讀取多種圖像格式;
  • 對識別結果進行電子文檔“版面還原”功能,所見即所得;
  • 具有日文、韓文、日英混排、韓英混排識別功能,識別率98%以上。
二、本公司使用的OCR軟件擁有四大優勢
  • 可以識別2萬多漢字的多體文字識別系統,是國內最優軟件之一;
  • 漢字和英文混排、日文和英文混排、韓文和英文混排同時識別。漢字識別率高;
  • 本公司使用的文通OCR軟件經過"863"智 能專家組對數十萬字的指標評測和中國軟件評測中心對產品的嚴格測試,識別正確率超過99.5%,代表了目前印刷體文字識別的最高水平之一;
  • 支持多種環境接口。支持WINDOWS環境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多種內碼,可以用於 WINDOWS NT和WINDOWS 98/2000/XP,適合全球各個地區使用。

OCR文字處理流程

1.圖像輸入

圖像輸入方式均指由掃描儀輸入,指的是由掃描儀將紙質文件或縮微膠片等掃描成JPG圖像。

本公司擁有大量專業、高速的掃描設備,圖像輸入方面的“疑難雜症”都會迎刃而解。

2.OCR分析

◆圖像處理

為了提高識別率,對圖像進行“消藍去污”的處理,即去掉圖像上影響識別率的噪音如麻點、下劃線等,圖像質量控製程序自動監測圖像處理質量。

◆版面分析

能自動進行版面理解並定位,判別劃框區域是橫排文本區、豎排文本區、表格區還是圖像區,自動在後台運行版面分析,操作人員可在前台進行確認,必要時對自動版面分析結果加入手工干預。

◆文字識別

把文字圖像轉化為計算機文字內碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字) 、純英文、日文、韓文、漢英文混排文本,識別出來的文字內碼可以是中文的GB碼、BIG5碼、GBK內碼;日文的JIS及Shift-JIS內碼;韓文的KSC內碼。

◆縱向校對

OCR具有很強的查錯糾錯能力。縱向校對是將一個圖像或若干個圖像中識別成同一個字的文字圖像列在一起顯示,並以突出顏色標出可疑字,便於操作員發現錯誤和修改。

◆橫向校對

傳統的人工校對方法,操作員直接對比OCR識別結果文本和圖像,以發現自動識別錯誤的字符。系統自動調出文字對應的圖像,進行對比、修改。

3.文字輸出

識別結果經修改編輯後,可根據需要將文檔導出為RTF、PDF、HTML、JDA、WPS文件格式,或直接保存為TXT格式。

4.數據入庫

保存的文檔將通過OCR助手直接存儲到數據庫中。

服務項目

一、印刷字體的識別與轉換

通過掃描儀與OCR軟件,對紙質文字進行掃描、識別和保存,最終將紙介信息文字轉化成為可以隨意檢索、複製的電子文字。

識別字體:印刷體的文字,包括簡(繁)體多漢字、純英文、日文、韓文、漢英混排文本。

使用內碼:支持中文GB、BIG5及GBK內碼;支持日文JIS及Shift-JIS內碼;支持韓文KSC內碼。

適應圖像:對黑白二值、256級灰度及24位彩色圖像的各種複雜版面的中文報紙均可進行版面分析、版面理解,並具有準確的複原能力。

輸出格式:PDF、HTML、RTF、EXL及TXT等標準格式,並可製作成能供計算機閱讀和查詢檢索的電子文檔。

二、手寫稿件電子化

公司的文字識別軟件能夠對手寫漢字進行識別。此外,公司還可以對有特殊要求的顧客進行手動錄入或人工錄入服務。

三、版面還原

除了最基本的文字輸出外,本公司亦提供一種名為“版面還原”的功能。將識別並修改好的文本還原成跟掃描文稿版面的佈局一樣、可以供計算機閱讀和查詢檢索的PDF或RTF(近似DOC文檔)格式的數字文檔。

服務對象

一、專業媒體機構

報社、雜誌社、新聞社、圖書館、出版社、檔案館等所堆積的印刷材料浩如煙海,在信息電子化的今天,有必要對往昔大量的紙介信息文字進行識別、轉換。

二、其它單位和個人

如大批文件的數字化,各類手寫稿的電子化等。

服務承諾

一、專業媒體機構

校對是提高正確率的保證。本公司文字識別轉換經過三輪校對:縱向校對(OCR自動識別)、橫向校對(人工修改)、利用OCR輔助軟件進行第三次校對之後,文字識別的正確率高達99.8%以上,文字識別率達到國內最高水平。

二、數量保證

調查表明:一個10人的OCR數據加工工廠相當於50人左右的傳統數據工廠,將節省大量人員費用及管理費用,大大降低單位數據的生產成本。本公司擁有年輕的OCR專職隊伍,速度更為領先。