国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

python利用Tesseract識別驗證碼

王陸寬 / 2675人閱讀

摘要:無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談談中光學識別驗證碼模塊和。和是的一個識別庫,但其實是對做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。

無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談談python中光學識別驗證碼模塊tesserocrpytesseracttesserocrpytesseract是Python的一個OCR識別庫,但其實是對tesseract做的一層Python API封裝,pytesseract是Google的Tesseract-OCR引擎包裝器;所以它們的核心是tesseract,因此在安裝tesserocr之前,我們需要先安裝tesseract
下載安裝

下載地址:https://digi.bib.uni-mannheim...

下載完成后,雙擊安裝,可以勾選Additional language data(download)選項來安裝OCR識別支持的語言包,但下載語言包實在是慢,我們可以直接從https://github.com/tesseract-... 下載zip的語言包壓縮文件,解壓后將tessdata-master中的文件復制到Tesseract的安裝目錄C:Program Files (x86)Tesseract-OCR essdata目錄下,最后我們配置下環境變量,我們將C:Program Files (x86)Tesseract-OCR添加到環境變量中。進入命令提示符,輸入tesseract,顯示下圖結果,說明配置完成

查看安裝了的語言包:tesseract --list-langs

顯示我一共安裝了167種語言包,里邊包含英文或者其他字符。

測試

實驗用的二維碼

基本使用語法
tesseract image.png result (tesseract 圖片名稱 生成文件名稱)

結果

由結果來看,識別出來了P、2和X,但是把C識別成了G,識別度還是比較高,接下來看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下載安裝 pip install pytesseract

識別驗證碼腳本

import pytesseract
from PIL import Image

im=Image.open("pin.png")
print(pytesseract.image_to_string(im))

結果

這樣識別的結果同樣跟上文一樣,個別字符識別的不是很準確

圖像處理

現在網站上的二維碼設計的通常很難復雜,如果直接識別的話很難識別出來,下面這段代碼是進行灰度處理和二值化

import pytesseract
from PIL import Image

im=Image.open("5.jpg")
#進行置灰處理
im=im.convert("L")
#這個是二值化閾值
threshold=150
table=[]
for i in range(256):
    if i

原圖

置灰和二值化后

想要提高識別率只能下載訓練好的語言包,如上述所說,或者用深度學習的方法訓練機器
原文地址:https://nolon.xyz/archives/77/

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43054.html

相關文章

  • Python圖像處理之圖片驗證識別

    摘要:在上一篇博客圖像處理之圖片文字識別中我們介紹了在中如何利用軟件來識別圖片中的英文與中文,本文將具體介紹如何在中利用軟件來識別驗證碼數字加字母。 ??在上一篇博客Python圖像處理之圖片文字識別(OCR)中我們介紹了在Python中如何利用Tesseract軟件來識別圖片中的英文與中文,本文將具體介紹如何在Python中利用Tesseract軟件來識別驗證碼(數字加字母)。??我們在網...

    kk_miles 評論0 收藏0
  • Python3網絡爬蟲實戰---4、數據庫的安裝:MySQL、MongoDB、Redis

    摘要:運行結果如果運行結果一致則證明安裝成功。上一篇文章網絡爬蟲實戰請求庫安裝下一篇文章網絡爬蟲實戰數據庫的安裝 上一篇文章:Python3網絡爬蟲實戰---2、請求庫安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網絡爬蟲實戰---數據庫的安裝:MySQL、MongoDB、Redis 抓取下網頁代碼之后,下一步就是從網頁中提取信息,提取信息的方式有...

    xbynet 評論0 收藏0
  • OCR識別驗證

    摘要:識別網站驗證碼詳見維基百科或者百度百科識別的驗證碼原理采集一批驗證碼,根據圖片特點進行初步處理二值化灰度化濾波降噪等處理然后分割圖片,旋轉圖片,模板選取,訓練算法,讓它更準確。 最近在爬某網站,老是蹦出來驗證碼,就想著找個OCR破了這個驗證碼,然后就開始了OCR探索之旅。 首先簡單說一下什么是OCR OCR是(Optical Character Recognition,光學字符識別)的...

    Yangyang 評論0 收藏0

發表評論

0條評論

王陸寬

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<