国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

OCR識別驗證碼

Yangyang / 3422人閱讀

摘要:識別網(wǎng)站驗證碼詳見維基百科或者百度百科識別的驗證碼原理采集一批驗證碼,根據(jù)圖片特點進行初步處理二值化灰度化濾波降噪等處理然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準確。

最近在爬某網(wǎng)站,老是蹦出來驗證碼,就想著找個OCR破了這個驗證碼,然后就開始了OCR探索之旅。

首先簡單說一下什么是OCR

OCR是(Optical Character Recognition,光學(xué)字符識別)的簡稱,主要用途:

辦公用途,用來識別圖片里面的文字,可以高效率的錄入圖片類型文件。

識別網(wǎng)站驗證碼

詳見維基百科或者百度百科

OCR識別的驗證碼原理

采集一批驗證碼,根據(jù)圖片特點進行初步處理(二值化/灰度化/濾波/降噪等處理)

然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準確。

有興趣的可以看一個Python實現(xiàn)的OCR識別驗證碼詳細demo,實際操作過程挺有意思的,大家有興趣了可以試試

OCR識別驗證碼的具體操作

首先我測試了一個百度開源的Node.js實現(xiàn)的OCR包
gitHub地址 https://github.com/netpi/baidu-ocr-api

安裝也很簡單直接按照官方的文檔安裝即可
發(fā)現(xiàn)百度的這個OCR包識別效果不太理想

![node_ocr.png][1]  

然后經(jīng)過一番Google和小伙伴們的推薦 選擇一個Google開源的tesseract這個是C++寫的,直接融合到爬蟲里不太方便,__有外國朋友基于tesseract封裝了一個Python的包pytesseract__,直接開箱即用,融入爬蟲程序中。

百聞不如一run

**ps(這里使用的操作系統(tǒng)是Ubuntu16.04;Python版本是2.7)**  
直接 `pip install pytesseract` 然后Python圖片處理要用到PIL(Python Imaging Library) `pip install PIL`
原圖片   

寫個簡單的測試demo
![code.png][3]

看下識別結(jié)果   
![error.png][4] 

報錯了, 根據(jù)報錯信息來看,是確實了什么文件,或者依賴lib
我跟蹤了pytesseract的代碼,發(fā)現(xiàn)是少了C++提供的OCR服務(wù),因為pytesseract是調(diào)用的tesseract(C++寫的)
然后安裝tesseract ```sudo apt install tesseract```
再run一下代碼

整體結(jié)果還可以(倒數(shù)第四位識別錯了),再訓(xùn)練一下準確率就更高了。
預(yù)知后事如何,且聽下回分解

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/38247.html

相關(guān)文章

  • Python通用驗證識別OCR庫ffffddocr的安裝使用教程

      小編寫這篇文章的主要目的,主要是給大家去做一個相關(guān)的介紹,介紹的內(nèi)容是關(guān)于Python通用驗證碼的一些相關(guān)小技巧,包括有通用驗證碼識別相關(guān)的OCR庫,同時也會給大家介紹一些內(nèi)容,介紹包括OCR庫ddddocr安裝使用教程,下面小編就給大家詳細解答下。  前言  在使用自動化登錄網(wǎng)站的時候,經(jīng)常輸入用戶名和密碼后會遇到驗證碼。今天介紹一款通用驗證碼識別OCR庫,對驗證碼識別徹底說拜拜,它的名字是...

    89542767 評論0 收藏0
  • 使用asprise進行圖片驗證識別

    摘要:內(nèi)置了對平臺的類庫在里頭,可以自己加載,無需額外在操作系統(tǒng)安裝,可便攜性強一點。調(diào)用不是線程安全的,因此多線程的話,每個線程自己一個實例測試 asprise-java-ocr-api 內(nèi)置了對windows、mac、linux平臺的類庫在jar里頭,可以自己加載,無需額外在操作系統(tǒng)安裝,可便攜性強一點。 maven com.asprise.o...

    cjie 評論0 收藏0
  • python利用Tesseract識別驗證

    摘要:無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談?wù)勚泄鈱W(xué)識別驗證碼模塊和。和是的一個識別庫,但其實是對做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。 無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談?wù)刾ython中光學(xué)識別驗證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個OCR識...

    王陸寬 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<