摘要:安裝下載安裝安裝和這里只說系統(tǒng)下的安裝,基本不會有什么問題。在利用調用時遇到以下錯誤系統(tǒng)找不到指定的文件。先用一個簡單的驗證碼測試一下
安裝
下載安裝: tesseract
安裝 pytesseract 和 Pillow
pip install pytesseract pip install Pillow
這里只說 winsows 系統(tǒng)下的安裝,linux 基本不會有什么問題。
在利用 pytesseract 調用 tesseract 時遇到以下錯誤:
FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。
于是我看了下pytesseract源碼,發(fā)現(xiàn)有這樣的一行
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = "tesseract"
估計 windows 系統(tǒng)要手工添加環(huán)境變量,所以才產生的問題,于是又將 tesseract 添加到環(huán)境變量 Path 中,但還是會報錯:
pytesseract.pytesseract.TesseractError: (1, "Error opening data file Program Files (x86)Tesseract-OCReng.traineddata")
這個是eng.traineddata文件路徑有誤才會出現(xiàn)的錯誤。
解決辦法:
先查看tesseract有沒有這個語言包,有CMD中輸入命令:
tesseract --list-langs
結果:
List of available languages (2): eng osd
然后再查看然后再google搜索一下問題,發(fā)現(xiàn)還是 tesseract 的環(huán)境變量的問題,找到了下面這一句話
Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.
于是新建的一個TESSDATA_PREFIX變量,指定tessdata的上級目錄也就是C:Program Files (x86)Tesseract-OCR
安裝完成。
先用一個簡單的驗證碼測試一下:
from PIL import Image import pytesseract result = pytesseract.image_to_string(Image.open(r"F:PIN_ws692.jpg","r"), lang="eng") print(result)
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/40996.html
摘要:運行結果如果運行結果一致則證明安裝成功。上一篇文章網絡爬蟲實戰(zhàn)請求庫安裝下一篇文章網絡爬蟲實戰(zhàn)數(shù)據(jù)庫的安裝 上一篇文章:Python3網絡爬蟲實戰(zhàn)---2、請求庫安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網絡爬蟲實戰(zhàn)---數(shù)據(jù)庫的安裝:MySQL、MongoDB、Redis 抓取下網頁代碼之后,下一步就是從網頁中提取信息,提取信息的方式有...
摘要:目前已作為開源項目發(fā)布在,其最新版本已經支持中文,并提供了一個命令行工具。他能夠用來識別英文,但是不能識別中文。所以要下載中文的識別包這樣就能識別中文。至少對印刷的中文字識別效果是很好的。 1. Tesseract 介紹 Tesseract的OCR引擎最先由HP實驗室于1985年開始研發(fā),至1995年時已經成為OCR業(yè)內最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業(yè)務,Te...
摘要:與介紹將圖片翻譯成文字一般被稱為光學文字識別,。是目前公認最優(yōu)秀最精確的開源系統(tǒng)。我們以圖片為例輸入命令識別結果如下只識別錯了一個字,識別率還是不錯的。最后加一句,對于彩色圖片的識別效果沒有黑白圖片的效果好。 OCR與Tesseract介紹 ??將圖片翻譯成文字一般被稱為光學文字識別(Optical Character Recognition,OCR)??梢詫崿F(xiàn)OCR 的底層庫并不多,...
摘要:無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談談中光學識別驗證碼模塊和。和是的一個識別庫,但其實是對做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。 無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談談python中光學識別驗證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個OCR識...
閱讀 2365·2023-04-25 20:07
閱讀 3303·2021-11-25 09:43
閱讀 3662·2021-11-16 11:44
閱讀 2529·2021-11-08 13:14
閱讀 3178·2021-10-19 11:46
閱讀 895·2021-09-28 09:36
閱讀 2975·2021-09-22 10:56
閱讀 2374·2021-09-10 10:51