摘要:最近在研究爬蟲這方面的庫也不少但大多都用不順手今天在上搜索時發現了這個框架其用法很簡單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運行使用列子網頁標題我的主頁測試段落一測試段落二測試段落
最近在研究python爬蟲,這方面的庫也不少,但大多都用不順手.
今天在github上搜索時發現了這個框架,其用法很簡單,和javascript操作DOM幾乎一樣,剛使用了下,感覺很好用,框架也不大,不算文檔70多k,安裝也很方便.所以就分享給大家.
地址:https://github.com/kata198/AdvancedHTMLParser
下載后,運行 python setup.py install
使用列子
#coding=utf-8 import AdvancedHTMLParser ht = """網頁標題 div#testid測試段落一
測試段落二
測試段落三
測試段落四
""" parser = AdvancedHTMLParser.AdvancedHTMLParser() parser.parseStr(ht.decode("gbk").encode("utf-8")) #我在windows下寫的,所以這里轉換了編碼 #網頁編碼 print parser.encoding #根據標簽名獲取元素 items = parser.getElementsByTagName("p") for item in items: print item.innerHTML #根據類名獲取 items = parser.getElementsByClassName("link") #獲取a連接的文本和鏈接 print items[0].getElementsByClassName("sf")[0].innerHTML print items[0].getElementsByClassName("sf")[0].getAttribute("href") #根據id獲取 print parser.getElementById("testid").innerHTML
輸出如下:
utf-8
測試段落一
測試段落二
測試段落三
測試段落四
Segmentfault
http://segmentfault.com/
div#testid
是不是很方便呢.
本文同步發表在CSDN,轉載請注明作者!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/49644.html
摘要:最近在研究爬蟲這方面的庫也不少但大多都用不順手今天在上搜索時發現了這個框架其用法很簡單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運行使用列子網頁標題我的主頁測試段落一測試段落二測試段落 最近在研究python爬蟲,這方面的庫也不少,但大多都用不順手.今天在github上搜索時發現了這個框架,其用法很簡單,和javascript操作DOM...
摘要:資源獲取方式根據下面的索引,大家可以選擇自己需要的資源,然后在松哥公眾號牧碼小子后臺回復對應的口令,就可以獲取到資源的百度云盤下載地址。公眾號二維碼如下另外本文會定期更新,松哥有新資源的時候會及時分享給大家,歡迎各位小伙伴保持關注。 沒有一條路是容易的,特別是轉行計算機這條路。 松哥接觸過很多轉行做開發的小伙伴,我了解到很多轉行人的不容易,記得松哥大二時剛剛決定轉行計算機,完全不知道這...
摘要:下載器下載器負責獲取頁面數據并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個該頁面的,并將其通過下載中間件返回方向發送給引擎。 作者:xiaoyu微信公眾號:Python數據科學知乎:Python數據分析師 在爬蟲的路上,學習scrapy是一個必不可少的環節。也許有好多朋友此時此刻也正在接觸并學習sc...
摘要:以下這些項目,你拿來學習學習練練手。當你每個步驟都能做到很優秀的時候,你應該考慮如何組合這四個步驟,使你的爬蟲達到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學習不是一朝一夕的事情,建議多看看一些比較優秀的爬蟲的設計方案,比如說。 (一)如何學習Python 學習Python大致可以分為以下幾個階段: 1.剛上手的時候肯定是先過一遍Python最基本的知識,比如說:變量、數據結構、語法...
閱讀 3046·2023-04-26 02:27
閱讀 2763·2021-11-22 13:54
閱讀 902·2021-11-12 10:36
閱讀 3753·2021-10-09 09:44
閱讀 3178·2021-10-09 09:41
閱讀 1223·2021-09-22 10:02
閱讀 2833·2019-08-30 15:56
閱讀 3104·2019-08-30 11:02