tesseract 識別中文字元

2021-08-04 06:36:54 字數 905 閱讀 6943

在tesseract目錄下,有個tesseract.exe檔案,主要呼叫這個執行檔案,用cmd執行到這個目錄下,在這個目錄下同時放置一張需要識別的,這裡是123.jpg

然後執行:tesseract 123.jpg result

會把123.jpg自動識別並轉換為txt檔案到result.txt

然後找到tessdata目錄,把eng.traineddata替換為chi_sim.traineddata,並且把chi_sim.traineddata重新命名為eng.traineddata

ok,現在中文識別基本達到90%以上了

測試下:

原始檔():此開卷第一回也。作者自云曾歷過一番夢幻之後,故將真事隱去,

而借「通靈」說此《石頭記》一書也,故曰「甄士隱」云云。但書中所記何事何人?

tesseract release notes august 27 2007 - v2.01

fixed utf8 input problems with box file reader.

4-834578457384578-871238917238912739823749834789

輸入:tesseract 123.jpg result

測試結果為:

此開卷第一回也. 作者醞曾歷過一番夢幻之後, 故將真事隱去, 

而借 「通靈" 說此 «石頭記» 一書也, 故日 「甄士隱" 云云,但書中所記何事何人7

tesseract re1ease notes august z7 z007 7 \「z.o1

fixed [二tfs input prob1ems \vit11 box fi1e reader.

4783457845738457s7871z38917z38912739s23749834789

識別率還是蠻高的,,,更詳細的需要自己去鑽研了。

Python 文字識別 Tesseract

tesseract 是乙個 ocr 庫,目前由 google 贊助 google 也是一家以 ocr 和機器學習技術聞名於世的公司 tesseract 是目前公認最優秀 最精確的開源 ocr 系統。除了極高的精確度,tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字型,也可以識別出任...

python識別文字tesseract

ubuntu版本 1.tesseract ocr安裝 sudo apt get install tesseract ocr 2.pytesseract安裝 sudo pip install pytesseract 3.pillow 安裝 sudo pip install pillow 開始寫 fro...

基於tesseract的文字識別

一 tesseract基本操作過程 2.使用 tesseract使用比較簡單,可以直接採用命令列通過tesseract filename outputname l 語言名字 psm 數字 預設是3 config 配置檔案 預設的語言名字時英語,預設的輸出檔案格式時txt。也可基於python對進行檢...