国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python圖像處理之圖片文字識(shí)別(OCR)

W4n9Hu1 / 3550人閱讀

摘要:與介紹將圖片翻譯成文字一般被稱為光學(xué)文字識(shí)別,。是目前公認(rèn)最優(yōu)秀最精確的開(kāi)源系統(tǒng)。我們以圖片為例輸入命令識(shí)別結(jié)果如下只識(shí)別錯(cuò)了一個(gè)字,識(shí)別率還是不錯(cuò)的。最后加一句,對(duì)于彩色圖片的識(shí)別效果沒(méi)有黑白圖片的效果好。

OCR與Tesseract介紹

??將圖片翻譯成文字一般被稱為光學(xué)文字識(shí)別(Optical Character Recognition,OCR)。可以實(shí)現(xiàn)OCR 的底層庫(kù)并不多,目前很多庫(kù)都是使用共同的幾個(gè)底層OCR 庫(kù),或者是在上面進(jìn)行定制。
??Tesseract 是一個(gè)OCR 庫(kù),目前由Google 贊助(Google 也是一家以O(shè)CR 和機(jī)器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認(rèn)最優(yōu)秀、最精確的開(kāi)源OCR 系統(tǒng)。
??除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過(guò)訓(xùn)練識(shí)別出任何字體(只要這些字體的風(fēng)格保持不變就可以),也可以識(shí)別出任何Unicode 字符。

Tesseract的安裝與使用

??Tesseract的Windows安裝包下載地址為: http://digi.bib.uni-mannheim.... ,下載后雙擊直接安裝即可。安裝完后,需要將Tesseract添加到系統(tǒng)變量中。在CMD中輸入tesseract -v, 如顯示以下界面,則表示Tesseract安裝完成且添加到系統(tǒng)變量中。

??Linux 用戶可以通過(guò)apt-get 安裝:

$sudo apt-get tesseract-ocr

??用Tesseract可以識(shí)別格式規(guī)范的文字,主要具有以下特點(diǎn):

? 使用一個(gè)標(biāo)準(zhǔn)字體(不包含手寫(xiě)體、草書(shū),或者十分“花哨的”字體)
? 雖然被復(fù)印或拍照,字體還是很清晰,沒(méi)有多余的痕跡或污點(diǎn)
? 排列整齊,沒(méi)有歪歪斜斜的字
? 沒(méi)有超出圖片范圍,也沒(méi)有殘缺不全,或緊緊貼在圖片的邊緣
??下面將給出幾個(gè)tesseract識(shí)別圖片中文字的例子。
??首先是E://figures/other/poems.jpg, 輸入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 則會(huì)將poems.jpg中的識(shí)別文字寫(xiě)入到poems.txt中,如下圖:



??接著是稍微有點(diǎn)傾斜的文字圖片th.jpg,識(shí)別情況如下:


可以看到識(shí)別的情況不如剛才規(guī)范字體的好,但是也能識(shí)別圖片中的大部分字母。
??最后是識(shí)別簡(jiǎn)體中文,需要事先安裝簡(jiǎn)體中文語(yǔ)言包,下載地址為:https://github.com/tesseract-... ,再講chi_sim.traineddata放在C:Program Files (x86)Tesseract-OCRtessdata目錄下。我們以圖片timg.jpg為例:

輸入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

識(shí)別結(jié)果如下:

只識(shí)別錯(cuò)了一個(gè)字,識(shí)別率還是不錯(cuò)的。
??最后加一句,Tesseract對(duì)于彩色圖片的識(shí)別效果沒(méi)有黑白圖片的效果好。

pytesseract

??pytesseract是Tesseract關(guān)于Python的接口,可以使用pip install pytesseract安裝。安裝完后,就可以使用Python調(diào)用Tesseract了,不過(guò),你還需要一個(gè)Python的圖片處理模塊,可以安裝pillow.
??輸入以下代碼,可以實(shí)現(xiàn)同上述Tesseract命令一樣的效果:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = "C://Program Files (x86)/Tesseract-OCR/tesseract.exe"
text = pytesseract.image_to_string(Image.open("E://figures/other/poems.jpg"))

print(text)

運(yùn)行結(jié)果如下:

參考文獻(xiàn)

Python網(wǎng)絡(luò)數(shù)據(jù)采集 【美】 Ryan Mitchell 人民郵電出版社

https://blog.csdn.net/dcrmg/a...

http://www.inimei.cn/archives...

注意:本人現(xiàn)已開(kāi)通微信公眾號(hào):Python爬蟲(chóng)與算法(微信號(hào)為:easy_web_scrape), 歡迎大家關(guān)注哦~~

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41838.html

相關(guān)文章

  • 識(shí)別圖片中的文字 - Tesseract 和 百度云OCR的對(duì)比

    摘要:一個(gè)簡(jiǎn)單的圖片轉(zhuǎn)文字的函數(shù)實(shí)現(xiàn)如下。百度云這是偶然的發(fā)現(xiàn),百度云提供了一定額度的免費(fèi)的,目前是每日次,做做研究或者小應(yīng)用還勉強(qiáng)夠用,本文主要為了測(cè)試其效果。論中文,還是百度比谷歌更懂一點(diǎn)。 當(dāng)今時(shí)代人工智能都已經(jīng)是爛大街的詞了,OCR應(yīng)該也很多人都知道。 OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印...

    mushang 評(píng)論0 收藏0
  • Python圖像處理圖片驗(yàn)證碼識(shí)別

    摘要:在上一篇博客圖像處理之圖片文字識(shí)別中我們介紹了在中如何利用軟件來(lái)識(shí)別圖片中的英文與中文,本文將具體介紹如何在中利用軟件來(lái)識(shí)別驗(yàn)證碼數(shù)字加字母。 ??在上一篇博客Python圖像處理之圖片文字識(shí)別(OCR)中我們介紹了在Python中如何利用Tesseract軟件來(lái)識(shí)別圖片中的英文與中文,本文將具體介紹如何在Python中利用Tesseract軟件來(lái)識(shí)別驗(yàn)證碼(數(shù)字加字母)。??我們?cè)诰W(wǎng)...

    kk_miles 評(píng)論0 收藏0
  • 如何識(shí)別圖片文字,PaddleOCR機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目使用 | 機(jī)器學(xué)習(xí)

    摘要:我們的生活中,機(jī)器學(xué)習(xí)已經(jīng)越來(lái)越多的扮演著重要角色,也不再是神秘的東西。本文主要是介紹一個(gè)博主使用的比較好的開(kāi)源項(xiàng)目,在這里分享給大家。項(xiàng)目使用先把項(xiàng)目從上下來(lái),慢慢分析。顯示結(jié)果部分會(huì)將識(shí)別的文字用框標(biāo)出來(lái),并且展示識(shí)別的結(jié)果。 目錄 前言 項(xiàng)目使用 項(xiàng)目結(jié)構(gòu) 環(huán)境部署 測(cè)試代碼 參數(shù)補(bǔ)...

    WelliJhon 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<