摘要:,引言晚上翻看網絡數據采集這本書,看到讀取內容的代碼,想起來前幾天集搜客剛剛發布了一個抓取網頁內容的抓取規則,這個規則能夠把內容當成來做網頁抓取。,把轉換成文本的源代碼下面的源代碼,讀取文件內容互聯網上的或是本地的,轉換成文本,打印出來。
1,引言
晚上翻看《Python網絡數據采集》這本書,看到讀取PDF內容的代碼,想起來前幾天集搜客剛剛發布了一個抓取網頁pdf內容的抓取規則,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功于Firefox解析PDF的能力,能夠把pdf格式轉換成html標簽,比如,div之類的標簽,從而用GooSeeker網頁抓取軟件像抓普通網頁一樣抓取結構化內容。
從而產生了一個問題:用Python爬蟲的話,能做到什么程度。下面將講述一個實驗過程和源代碼。
2,把pdf轉換成文本的Python源代碼下面的python源代碼,讀取pdf文件內容(互聯網上的或是本地的),轉換成文本,打印出來。這段代碼主要用了一個第三方庫PDFMiner3K把PDF讀成字符串,然后用StringIO轉換成文件對象。(源代碼下載地址參看文章末尾的GitHub源)
from urllib.request import urlopen from pdfminer.pdfinterp import PDFResourceManager, process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from io import StringIO from io import open def readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return content pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf") outputString = readPDF(pdfFile) print(outputString) pdfFile.close()
如果PDF文件在你的電腦里,那就把urlopen返回的對象pdfFile替換成普通的open()文件對象。
3,展望這個實驗只是把pdf轉換成了文本,但是沒有像開頭所說的轉換成html標簽,那么在Python編程環境下是否有這個能力,留待今后探索。
4,集搜客GooSeeker開源代碼下載源1.GooSeeker開源Python網絡爬蟲GitHub源
5,文檔修改歷史2016-05-26:V2.0,增補文字說明
2016-05-29:V2.1,增加第六章:源代碼下載源,并更換github源的網址
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37973.html
摘要:筆者在今天的工作中,遇到了一個需求,那就是如何將字符串生成。比如,需要把字符串這是測試文件生成為該中含有文字這是測試文件。 ??筆者在今天的工作中,遇到了一個需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測試文件’生成為PDF, 該PDF中含有文字‘這是測試文件’。??經過一番檢索,筆者決定采用wkhtmltopdf這個軟件,它可以將HTML轉化為...
小編寫這篇文章的主要目的,主要是給大家介紹一下關于python代碼實現pdf編輯免費pdf工具相關知識的解答。 PDF是在日常生活中使用范圍還是比較的廣泛的,很多的文檔都是PDF格式。格式穩定是他的一個優勢,使得我們在打印、分享、傳輸過程中能夠最優的保持原有色彩和格式。 PDF各種各樣的的版本是比較的多的,它在格式的穩定性方面雖然具有很大優勢。但是,在可編輯性方面卻為使用者引入了另外一個困...
摘要:復雜系統仿真的微博客虛假信息擴散模型研究面向影子分析的社交媒體競爭情報搜集面向人機協同的移動互聯網政務門戶探析經驗證。微博客的企業競爭情報搜集移動社交媒體用戶隱私保護對策研究注意這里的提示,原先的個文件沒有被再次抽取,只有個新文件被抽取。 showImg(https://segmentfault.com/img/bVbiU7y?w=1000&h=508); 本文為你展示,如何用Pyth...
摘要:在日常的學習生活工作中,我們有時會遇到需要合并文件的需求。模塊的相關參考文檔網址為本文將介紹如何利用來完成文件的合并。 ??在日常的學習生活工作中,我們有時會遇到需要合并PDF文件的需求。這時,我們可以利用相關的PDF軟件(如Adobe Acrobat Reader DC)來完成這個任務,幸運的是,Python也為我們提供了這方面的處理模塊PyPDF2, 借用它,我們可以利用Pytho...
閱讀 2343·2021-11-15 11:38
閱讀 3550·2021-09-22 15:16
閱讀 1191·2021-09-10 11:11
閱讀 3161·2021-09-10 10:51
閱讀 2936·2019-08-30 15:56
閱讀 2782·2019-08-30 15:44
閱讀 3190·2019-08-28 18:28
閱讀 3527·2019-08-26 13:36