今天嘗試了一下cnocr和tesseract,給大家分別講講兩個模塊的使用方法和效果。
1.準備
開始之前,你要確保Python和pip已經成功安裝在電腦上噢,如果沒有,請訪問這篇文章:超詳細Python安裝指南 進行安裝。如果你用Python的目的是數據分析,可以直接安裝Anaconda:Python數據分析與挖掘好幫手—Anaconda
Windows環境下打開Cmd(開始—運行—CMD),蘋果系統環境下請打開Terminal(command+空格輸入Terminal),準備開始輸入命令安裝依賴。
當然,我更推薦大家用VSCode編輯器,把本文代碼Copy下來,在編輯器下方的終端運行命令安裝依賴模塊,多舒服的一件事啊:Python 編程的最好搭檔—VSCode 詳細指南。
在終端輸入以下命令安裝我們所需要的依賴模塊:
pip install cnocr
看到 Successfully installed xxx 則說明安裝成功。
如果你只想使用cnocr,那么只需要安裝上述的cnocr包即可。如果你想試試其他語言的OCR識別,Tesseract 是更好的選擇。
首先,無論是Windows還是macOS,你都需要安裝 pytesseract:
pip install pytesseract
其次,還需要安裝Tesseract. Tesseract 在macOS下可以使用brew安裝:
brew install tesseract
Windows下安裝tesseract則相對復雜。
需要先下載安裝tesseract的程序,然后下載中文簡體字預訓練好的模型包(盡管本教程不會用tesseract,但還是給大家提供了)。
你可以在Python實用寶典公眾號后臺回復:**tesseract **打包下載。
下載完成后,將tesseract-ocr-setup-4.00.00dev.exe安裝到Tesseract-OCR指定目錄下,復制該目錄路徑增加到Path中:
并將訓練好的模型文件chi_sim.traineddata放入該目錄中,這樣安裝就完成了。
2.cnocr 識別圖片的中文
cnocr 主要針對的是排版簡單的印刷體文字圖片,如截圖圖片,掃描件等。目前內置的文字檢測和分行模塊無法處理復雜的文字排版定位。
盡管它分別提供了單行識別函數和多行識別函數,但在本人實測下,單行識別函數的效果非常糟糕,或者說要求的條件十分苛刻,基本上連截圖的文字都識別不出來。
不過多行識別函數還不錯,使用該函數識別的代碼如下:
from cnocr import CnOcr
ocr = CnOcr()
res = ocr.ocr('test.png')
print("Predicted Chars:", res)
圖片版代碼:
用于識別這個圖片里的文字:
效果如下:
如果不是很吹毛求疵,這樣的效果已經很不錯了。
3.pytesseract 識別圖片的英文
如果你的OCR目的不是中文而是英文,是需要別的模型的。這里給大家分享Tesseract-OCR,它是一款由HP實驗室開發,由Google維護的開源OCR引擎。
Tesseract-OCR 可擴展性很強,你可以基于它訓練屬于自己的OCR模型。
現在給大家看看它分類英文的效果,代碼如下:
import pytesseract
from PIL import Image
image = Image.open('test2.png')
code = pytesseract.image_to_string(image, lang='eng')
print(code)
圖片版代碼:
識別的圖片:
效果如下:
英文效果真的很不錯,不過官方預訓練好的中文模型效果就比較一般了。
如果你想試試Tesseract識別中文,只需要將代碼中的eng改為chi_sim即可,不過相信我,效果不忍直視。
-
模塊
+關注
關注
7文章
2718瀏覽量
47560 -
編輯器
+關注
關注
1文章
806瀏覽量
31207
發布評論請先 登錄
相關推薦
評論