爬蟲 文字識別

2021-09-26 15:52:43 字數 2365 閱讀 6605

機器視覺

從google的無人駕駛汽車到可以識別假鈔的自動售賣機,機器視覺一直都是乙個應用廣泛且具有深遠的影響和雄偉的願景的領域。

我們可以很輕鬆的閱讀裡的文字,但是機器閱讀這些就會非常困難,利用這種人類使用者可以正常讀取但是大多數存貯器沒法讀取的,這時驗證碼(captcha)就出現了。驗證碼讀取的難易程式也大不相同。

將影象翻譯成文字一般被稱為光學文字識別(optical character recognition,ocr)。可以實現ocr的底層庫並不多,目前很多庫都是使用共同的幾個底層ocr庫,或者是在上面進行定製。

ocr庫概述

在讀取和處理影象、影象相差的機器學習以及建立影象等任務中,python一直都是非常出色的語言。雖然有很多庫可以進行影象處理,但是這裡我們只介紹tesseract庫。

tesseract

tesseract是乙個ocr庫,目前由google贊助。tesseract是目前公認最優秀、最精確的開源ocr系統。除了極高的精確度,tesseract也具有很高的靈活性。它可以通過訓練識別出任何字型,也可以識別出任何unicode字元。

安裝tesseract:windows系統

安裝pytesseract

tesseract是乙個python的命令列工具,不是通過import語句匯入的庫。安裝之後,要用tesseract命令在python的外面執行,但我們可以通過pip安裝支援python版本的tesseract庫:

pip install pytesseract
處理規範的文字

你要處理的大多數文字都是比較乾淨、格式規範的。格式霍英東的文字通常具有以下特點:

使用統一的標準字型(不包含手寫體、草書或者十分「花哨」的字型),影印或者拍照但是字型清晰、沒有多餘的痕跡或者汙點

排列整齊,沒有歪歪斜斜的字

沒有超出範圍,也沒有殘缺不全,或緊緊貼在的邊緣

文字的一些格式問題在預處理時可以進行解決。例如,可以把轉換成灰度圖,調整亮度和對比度,還可以根據需要進行裁剪和旋轉,在這裡不作介紹。

示例:英文:

在學習過程中有什麼不懂得可以加

我的python學習交流扣扣qun,688244617

群裡有不錯的學習教程、開發工具與電子書籍。

與你分享python企業當下人才需求及怎麼從零基礎學習好python,和學習什麼內容。

tesseract. here are some symbols: !@#$%"&*()

識別結果的準確率還是挺高的。

通過python**實現

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ =

'mayi'

import pytesseract

from pil import image

# 開啟影象:英文

)# ocr識別:lang預設英文

text = pytesseract.image_to_string(image)

# 列印識別後的文字

print

(text)

# 我是分割線

print

("*"*30

)# 開啟影象:英文

image = image.

open

('china.png'

)# ocr識別:lang指定中文

text = pytesseract.image_to_string(image, lang =

'chi_sim'

)# 列印識別後的文字

print

(text)

執行結果

this is some text, written in arial, that will be read by

tesseract. here are some symbols: !@#$%"&*()

****

****

****

****

****

****

****

**中 華 人 民 共 和 國

文字識別 文字識別的應用

是否有過這樣的經歷,在網上發現一篇好文,卻沒辦法複製,怎麼辦?手動抄錄嗎,我想如果沒有ocr,大部分人會這麼做。ocr是一種影象處理技術,又叫文字識別,能夠將影象中不可複製的文字轉換成可編輯的文字形式,簡單來說,使用者對無法複製的文字進行拍照,通過文件識別軟體進行識別,即可獲得可編輯 可儲存的電子文...

文字識別軟體

文字識別軟體和word ppt excel同樣重要。說這樣的話絕不是瞎話,而是用事實在說話。一 文字識別簡介 ocr是英文optical character recognition的縮寫,中文意思是光學字元識別,這種技術就是能夠把上的文字資訊自動識別並且錄入到電腦當中,並且最關鍵的一點,與掃瞄搭配才...

Tesseract Ocr文字識別

tesseract的ocr引擎最先由hp實驗室於1985年開始研發,至1995年時已經成為ocr業內最準確的三款識別引擎之一。2005年,tesseract由美國內華達州資訊科技研究所獲得,並求諸於google對tesseract進行改進 消除bug 優化工作。tesseract目前已作為開源專案發...