光學字元辨識

可攜式掃描器利用光學字元辨識，將紙本資料紀錄至電腦的過程

光學字元辨識（英語：Optical Character Recognition，OCR）是指對文字資料的圖像檔案進行分析辨識處理，取得文字及版面資訊的過程。

過程

輸入

對於不同的圖像格式，有着不同的儲存格式、不同的壓縮方式，目前有OpenCV、CxImage等。

前期處理

二值化

如今數碼網絡攝影機拍攝的圖片，大多數是彩色圖像，彩色圖像所含資訊量巨大，較為不適用於OCR技術。

對於圖片的內容，我們可以簡單的分為前景與背景，為了讓電腦更快的、更好地進行OCR相關計算，我們需要先對彩色圖進行處理，使圖片只剩下前景資訊與背景資訊。二值化也可以簡單地將其理解為「黑白化」。

圖像降噪

對於不同的圖像，噪點的定義可能不同，根據噪點的特徵進行去噪的過程，稱為降噪。

傾斜校正

由於一般用戶，在拍照文件時，難以拍攝得完全符合水平平齊與豎直平齊，因此拍照出來的圖片不可避免的產生傾斜，這就需要圖像處理軟件進行校正。

中期處理

版面分析

將文件圖片分段落，分行的過程稱為版面分析，由於實際文件的多樣性、複雜性，此步驟目前仍待最佳化。

字元切割

由於拍照、書寫條件的限制，經常造成字元粘連、斷筆，直接使用此類圖像進行OCR分析將會極大限制OCR效能。因此需要進行字元切割，即：將不同字元之間分割開。

字元辨識

早期以模板匹配為主，後期以特徵提取為主。由於文字的位移、筆畫的粗細、斷筆、粘連、旋轉等因素的影響，極大地影響特徵提取難度。

版面還原

人們希望辨識後的文字，仍然像原始文件圖片那樣排列，段落、位置、順序不變地輸出到Word文件、PDF文件等，這一過程稱為版面還原。

後期處理

根據特定的語言上下文的關係，對辨識結果進行校正。

輸出

將辨識出的字元以某一格式的文字輸出。

發展歷史

OCR的概念是在1929年由德國科學家Tausheck最先提出來，並申請了專利。^{[來源請求]}後來美國科學家Handel也提出了利用技術對文字進行辨識的想法。^{[來源請求]}中國最早的OCR商業應用是由科學家王慶人教授在南開大學開發出來的，並在美國市場投入商業使用。^{[來源請求]}日本在20世紀60年代開始研究OCR辨識理論，開發了郵政編碼辨識系統。^{[來源請求]}

主流實現

CNN+RNN+CTC^[1]
CNN+RNN 基於 Attention ^[2]的方法。

參考來源

↑ 存档副本. [2018-02-19].
↑ 存档副本 (PDF). [2018-02-19].

[1] 存档副本. [2018-02-19].

[2] 存档副本 (PDF). [2018-02-19].

[1]

[2]