摘要:上一篇文章網絡爬蟲實戰與正則表達式抓取貓眼電影排行下一篇文章網絡爬蟲實戰解析庫的使用上一節我們實現了一個最基本的爬蟲,但提取頁面信息時我們使用的是正則表達式,用過之后我們會發現構造一個正則表達式還是比較的繁瑣的,而且萬一有一點地
上一篇文章:Python3網絡爬蟲實戰---27、Requests與正則表達式抓取貓眼電影排行
下一篇文章:Python3網絡爬蟲實戰---29、解析庫的使用:BeautifulSoup
上一節我們實現了一個最基本的爬蟲,但提取頁面信息時我們使用的是正則表達式,用過之后我們會發現構造一個正則表達式還是比較的繁瑣的,而且萬一有一點地方寫錯了就可能會導致匹配失敗,所以使用正則來提取頁面信息多多少少還是有些不方便的。
對于網頁的節點來說,它可以定義 id、class 或其他的屬性,而且節點之間還具有層次關系,在網頁中可以通過 XPath 或 CSS 選擇器來定位一個或多個節點。那么在頁面解析時,我們利用 XPath 或 CSS 選擇器來提取到某個節點,然后再調用相應的方法去獲取它的正文內容或者屬性不就可以提取我們想要的任意信息了嗎?
在 Python 中,我們怎樣來實現這個操作呢?不用擔心,這種解析庫已經非常多了,其中比較強大的庫有 LXML、BeautifulSoup、PyQuery 等等,本章我們就來介紹一下這三個解析庫的使用,有了它們,我們不用再為正則發愁,而且解析效率也會大大提高,實為爬蟲必備利器。
XPath的使用XPath,全稱 XML Path Language,即 XML 路徑語言,它是一門在XML文檔中查找信息的語言。XPath 最初設計是用來搜尋XML文檔的,但是它同樣適用于 HTML 文檔的搜索。
所以在做爬蟲時,我們完全可以使用 XPath 來做相應的信息抽取,本節我們來介紹一下 XPath 的基本用法。
1. XPath概覽XPath 的選擇功能十分強大,它提供了非常簡潔明了的路徑選擇表達式,另外它還提供了超過 100 個內建函數用于字符串、數值、時間的匹配以及節點、序列的處理等等,幾乎所有我們想要定位的節點都可以用XPath來選擇。
XPath 于 1999 年 11 月 16 日 成為 W3C 標準,它被設計為供 XSLT、XPointer 以及其他 XML 解析軟件使用,更多的文檔可以訪問其官方網站:https://www.w3.org/TR/xpath/。
2. XPath常用規則我們現用表格列舉一下幾個常用規則:
表達式 | 描述 |
---|---|
nodename | 選取此節點的所有子節點 |
/ | 從當前節點選取直接子節點 |
// | 從當前節點選取子孫節點 |
. | 選取當前節點 |
.. | 選取當前節點的父節點 |
@ | 選取屬性 |
在這里列出了XPath的常用匹配規則,例如 / 代表選取直接子節點,// 代表選擇所有子孫節點,. 代表選取當前節點,.. 代表選取當前節點的父節點,@ 則是加了屬性的限定,選取匹配屬性的特定節點。
例如:
//title[@lang=’eng’]
這就是一個 XPath 規則,它就代表選擇所有名稱為 title,同時屬性 lang 的值為 eng 的節點。
在后文我們會介紹 XPath 的詳細用法,通過 Python 的 LXML 庫利用 XPath 進行 HTML 的解析。
3. 準備工作在使用之前我們首先要確保安裝好了 LXML 庫,如沒有安裝可以參考第一章的安裝過程。
4. 實例引入我們現用一個實例來感受一下使用 XPath 來對網頁進行解析的過程,代碼如下:
from lxml import etree text = """ """ html = etree.HTML(text) result = etree.tostring(html) print(result.decode("utf-8"))
在這里我們首先導入了 LXML 庫的 etree 模塊,然后聲明了一段 HTML 文本,調用 HTML 類進行初始化,這樣我們就成功構造了一個 XPath 解析對象,在這里注意到 HTML 文本中的最后一個 li 節點是沒有閉合的,但是 etree 模塊可以對 HTML 文本進行自動修正。
在這里我們調用 tostring() 方法即可輸出修正后的 HTML 代碼,但是結果是 bytes 類型,在這里我們利用 decode() 方法轉成 str 類型,結果如下:
我們可以看到經過處理之后 li 節點標簽被補全,并且還自動添加了 body、html 節點。
另外我們也可以直接讀取文本文件進行解析,示例如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = etree.tostring(html) print(result.decode("utf-8"))
其中 test.html 的內容就是上面例子中的 HTML 代碼,內容如下:
這次的輸出結果略有不同,多了一個 DOCTYPE 的聲明,不過對解析無任何影響,結果如下:
5. 所有節點
我們一般會用 // 開頭的 XPath 規則來選取所有符合要求的節點,以上文的 HTML 文本為例,如果我們要選取所有節點,可以這樣實現:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://*") print(result)
運行結果:
[, , , , , , , , , , , , , ]
我們在這里使用 * 代表匹配所有節點,也就是整個 HTML 文本中的所有節點都會被獲取,可以看到返回形式是一個列表,每個元素是 Element 類型,其后跟了節點的名稱,如 html、body、div、ul、li、a 等等,所有的節點都包含在列表中了。
當然此處匹配也可以指定節點名稱,如果我們想獲取所有 li 節點,示例如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li") print(result) print(result[0])
在這里我們要選取所有 li 節點可以使用 //,然后直接加上節點的名稱即可,調用時直接調用 xpath() 方法即可提取。
運行結果:
[, , , , ]
在這里我們可以看到提取結果是一個列表形式,其每一個元素都是一個 Element 對象,如果要取出其中一個對象可以直接用中括號加索引即可取出,如 [0]。
6. 子節點我們通過 / 或 // 即可查找元素的子節點或子孫節點,加入我們現在想選擇 li 節點所有直接 a 子節點,可以這樣來實現:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li/a") print(result)
在這里我們通過追加一個 /a 即選擇了所有 li 節點的所有直接 a 子節點,因為 //li 是選中所有li節點, /a 是選中li節點的所有直接子節點 a,二者組合在一起即獲取了所有li節點的所有直接 a 子節點。
運行結果:
[, , , , ]
但是此處的 / 是選取直接子節點,如果我們要獲取所有子孫節點就該使用 // 了,例如我們要獲取 ul 節點下的所有子孫 a 節點,可以這樣來實現:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://ul//a") print(result)
運行結果是相同的。
但是這里如果我們用 //ul/a 就無法獲取任何結果了,因為 / 是獲取直接子節點,而在 ul 節點下沒有直接的 a 子節點,只有 li 節點,所以無法獲取任何匹配結果,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://ul/a") print(result)
運行結果:
[]
因此在這里我們要注意 / 和 // 的區別,/ 是獲取直接子節點,// 是獲取子孫節點。
7. 父節點我們知道通過連續的 / 或 // 可以查找子節點或子孫節點,那假如我們知道了子節點怎樣來查找父節點呢?在這里我們可以用 .. 來獲取父節點。
比如我們現在首先選中 href 是 link4.html 的 a 節點,然后再獲取其父節點,然后再獲取其 class 屬性,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://a[@href="link4.html"]/../@class") print(result)
運行結果:
["item-1"]
檢查一下結果,正是我們獲取的目標 li 節點的 class,獲取父節點成功。
同時我們也可以通過 parent:: 來獲取父節點,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://a[@href="link4.html"]/parent::*/@class") print(result)8. 屬性匹配
在選取的時候我們還可以用 @ 符號進行屬性過濾,比如在這里如果我們要選取 class 為 item-1 的 li 節點,可以這樣實現:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li[@class="item-0"]") print(result)
在這里我們通過加入 [@class="item-0"] 就限制了節點的 class 屬性為 item-0,而 HTML 文本中符合條件的 li 節點有兩個,所以返回結果應該返回兩個匹配到的元素,結果如下:
[, ]
可見匹配結果結果正是兩個,至于是不是那正確的兩個,我們在后面驗證一下。
9. 文本獲取我們用 XPath 中的 text() 方法可以獲取節點中的文本,我們接下來嘗試獲取一下上文 li 節點中的文本,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li[@class="item-0"]/text()") print(result)
運行結果如下:
[" "]
很奇怪的是我們并沒有獲取到任何文本,而是只獲取到了一個換行符,這是為什么呢?因為 XPath 中 text() 前面是 /,而此 / 的含義是選取直接子節點,而此處很明顯 li 的直接子節點都是 a 節點,文本都是在 a 節點內部的,所以這里匹配到的結果就是被修正的 li 節點內部的換行符,因為自動修正的li節點的尾標簽換行了。
即選中的是這兩個節點:
其中一個節點因為自動修正,li 節點的尾標簽添加的時候換行了,所以提取文本得到的唯一結果就是 li 節點的尾標簽和 a 節點的尾標簽之間的換行符。
因此,如果我們想獲取 li 節點內部的文本就有兩種方式,一種是選取到 a 節點再獲取文本,另一種就是使用 //,我們來看下二者的區別是什么。
首先我們選取到 a 節點再獲取文本,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li[@class="item-0"]/a/text()") print(result)
運行結果:
["first item", "fifth item"]
可以看到這里返回值是兩個,內容都是屬性為 item-0 的 li 節點的文本,這也印證了我們上文中屬性匹配的結果是正確的。
在這里我們是逐層選取的,先選取了 li 節點,又利用 / 選取了其直接子節點 a,然后再選取其文本,得到的結果恰好是符合我們預期的兩個結果。
我們再來看下用另一種方式 // 選取的結果,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li[@class="item-0"]//text()") print(result)
運行結果:
["first item", "fifth item", " "]
不出所料,這里返回結果是三個,可想而知這里是選取所有子孫節點的文本,其中前兩個就是 li 的子節點 a 節點內部的文本,另外一個就是最后一個 li 節點內部的文本,即換行符。
所以說,如果我們要想獲取子孫節點內部的所有文本,可以直接用 // 加 text() 的方式獲取,這樣可以保證獲取到最全面的文本信息,但是可能會夾雜一些換行符等特殊字符。如果我們想獲取某些特定子孫節點下的所有文本,可以先選取到特定的子孫節點,然后再調用 text() 方法獲取其內部文本,這樣可以保證獲取的結果是整潔的。
10. 屬性獲取我們知道了用 text() 可以獲取節點內部文本,那么節點屬性該怎樣獲取呢?其實還是用 @ 符號就可以,例如我們想獲取所有 li 節點下所有 a 節點的 href 屬性,代碼如下:
from lxml import etree html = etree.parse("./test.html", etree.HTMLParser()) result = html.xpath("http://li/a/@href") print(result)
在這里我們通過 @href 即可獲取節點的 href 屬性,注意此處和屬性匹配的方法不同,屬性匹配是中括號加屬性名和值來限定某個屬性,如 [@href="link1.html"],而此處的 @href 指的是獲取節點的某個屬性,二者需要做好區分。
運行結果:
["link1.html", "link2.html", "link3.html", "link4.html", "link5.html"]
可以看到我們成功獲取了所有 li 節點下的 a 節點的 href 屬性,以列表形式返回。
11. 屬性多值匹配有時候某些節點的某個屬性可能有多個值,例如下面例子:
from lxml import etree text = """
在這里 HTML 文本中的 li 節點的 class 屬性有兩個值 li 和 li-first,但是此時如果我們還想用之前的屬性匹配獲取就無法匹配了,代碼運行結果:
[]
這時如果屬性有多個值就需要用 contains() 函數了,代碼可以改寫如下:
from lxml import etree text = """
這樣我們通過 contains() 方法,第一個參數傳入屬性名稱,第二個參數傳入屬性值,這樣只要此屬性包含所傳入的屬性值就可以完成匹配了。
運行結果:
["first item"]
此種選擇方式在某個節點的某個屬性有多個值的時候經常會用到,如某個節點的 class 屬性通常有多個。
12. 多屬性匹配另外我們可能還遇到一種情況,我們可能需要根據多個屬性才能確定一個節點,這是就需要同時匹配多個屬性才可以,那么這里可以使用運算符 and 來連接,示例如下:
from lxml import etree text = """
在這里 HTML 文本的 li 節點又增加了一個屬性 name,這時候我們需要同時根據 class 和 name 屬性來選擇,就可以 and 運算符連接兩個條件,兩個條件都被中括號包圍,運行結果如下:
["first item"]
這里的 and 其實是 XPath 中的運算符,另外還有很多運算符,如 or、mod 等等,在此總結如下:
運算符 | 描述 | 實例 | 返回值 |
---|---|---|---|
or | 或 | price=9.80 or price=9.70 | 如果 price 是 9.80,則返回 true。如果 price 是 9.50,則返回 false。 |
and | 與 | price>9.00 and price<9.90 | 如果 price 是 9.80,則返回 true。如果 price 是 8.50,則返回 false。 |
mod | 計算除法的余數 | 5 mod 2 | 1 |
計算兩個節點集 | //book //cd | 返回所有擁有 book 和 cd 元素的節點集 | |
+ | 加法 | 6 + 4 | 10 |
- | 減法 | 6 - 4 | 2 |
* | 乘法 | 6 * 4 | 24 |
div | 除法 | 8 div 4 | 2 |
= | 等于 | price=9.80 | 如果 price 是 9.80,則返回 true。如果 price 是 9.90,則返回 false。 |
!= | 不等于 | price!=9.80 | 如果 price 是 9.90,則返回 true。如果 price 是 9.80,則返回 false。 |
< | 小于 | price<9.80 | 如果 price 是 9.00,則返回 true。如果 price 是 9.90,則返回 false。 |
<= | 小于或等于 | price<=9.80 | 如果 price 是 9.00,則返回 true。如果 price 是 9.90,則返回 false。 |
> | 大于 | price>9.80 | 如果 price 是 9.90,則返回 true。如果 price 是 9.80,則返回 false。 |
>= | 大于或等于 | price>=9.80 | 如果 price 是 9.90,則返回 true。如果 price 是 9.70,則返回 false。 |
此表參考來源:http://www.w3school.com.cn/xp...。
13. 按序選擇有時候我們在選擇的時候可能某些屬性同時匹配了多個節點,但是我們只想要其中的某個節點,如第二個節點,或者最后一個節點,這時該怎么辦呢?
這時可以利用中括號傳入索引的方法獲取特定次序的節點,示例如下:
from lxml import etree text = """ """ html = etree.HTML(text) result = html.xpath("http://li[1]/a/text()") print(result) result = html.xpath("http://li[last()]/a/text()") print(result) result = html.xpath("http://li[position()<3]/a/text()") print(result) result = html.xpath("http://li[last()-2]/a/text()") print(result)
第一次選擇我們選取了第一個 li 節點,中括號中傳入數字1即可,注意這里和代碼中不同,序號是以 1 開頭的,不是 0 開頭的。
第二次選擇我們選取了最后一個 li 節點,中括號中傳入 last() 即可,返回的便是最后一個 li 節點。
第三次選擇我們選取了位置小于 3 的 li 節點,也就是位置序號為 1 和 2 的節點,得到的結果就是前 2 個 li 節點。
第四次選擇我們選取了倒數第三個 li 節點,中括號中傳入 last()-2即可,因為 last() 是最后一個,所以 last()-2 就是倒數第三個。
運行結果如下:
["first item"] ["fifth item"] ["first item", "second item"] ["third item"]
在這里我們使用了 last()、position() 等函數,XPath 中提供了 100 多個函數,包括存取、數值、字符串、邏輯、節點、序列等處理功能,具體所有的函數作用可以參考:http://www.w3school.com.cn/xp...。
13. 節點軸選擇XPath 提供了很多節點軸選擇方法,英文叫做 XPath Axes,包括獲取子元素、兄弟元素、父元素、祖先元素等等,在一定情況下使用它可以方便地完成節點的選擇,我們用一個實例來感受一下:
from lxml import etree text = """ """ html = etree.HTML(text) result = html.xpath("http://li[1]/ancestor::*") print(result) result = html.xpath("http://li[1]/ancestor::div") print(result) result = html.xpath("http://li[1]/attribute::*") print(result) result = html.xpath("http://li[1]/child::a[@href="link1.html"]") print(result) result = html.xpath("http://li[1]/descendant::span") print(result) result = html.xpath("http://li[1]/following::*[2]") print(result) result = html.xpath("http://li[1]/following-sibling::*") print(result)
運行結果:
[, , , ] [ ] ["item-0"] [ ] [ ] [ ] [ , , , ]
第一次選擇我們調用了 ancestor 軸,可以獲取所有祖先節點,其后需要跟兩個冒號,然后是節點的選擇器,這里我們直接使用了 *,表示匹配所有節點,因此返回結果是第一個 li 節點的所有祖先節點,包括 html,body,div,ul。
第二次選擇我們又加了限定條件,這次在冒號后面加了 div,這樣得到的結果就只有 div 這個祖先節點了。
第三次選擇我們調用了 attribute 軸,可以獲取所有屬性值,其后跟的選擇器還是 *,這代表獲取節點的所有屬性,返回值就是 li 節點的所有屬性值。
第四次選擇我們調用了 child 軸,可以獲取所有直接子節點,在這里我們又加了限定條件選取 href 屬性為 link1.html 的 a 節點。
第五次選擇我們調用了 descendant 軸,可以獲取所有子孫節點,這里我們又加了限定條件獲取 span 節點,所以返回的就是只包含 span 節點而沒有 a 節點。
第六次選擇我們調用了 following 軸,可以獲取當前節點之后的所有節點,這里我們雖然使用的是 * 匹配,但又加了索引選擇,所以只獲取了第二個后續節點。
第七次選擇我們調用了 following-sibling 軸,可以獲取當前節點之后的所有同級節點,這里我們使用的是 * 匹配,所以獲取了所有后續同級節點。
以上是XPath軸的簡單用法,更多的軸的使用可以參考:http://www.w3school.com.cn/xp...。
14. 結語到現在為止我們基本上把可能用到的 XPath 選擇器介紹完了, XPath 功能非常強大,內置函數非常多,熟練使用之后可以大大提升 HTML 信息的提取效率。
如想查詢更多 XPath 的用法可以查看:http://www.w3school.com.cn/xp...。
如想查詢更多 Python LXML 庫的用法可以查看:http://lxml.de/。
上一篇文章:Python3網絡爬蟲實戰---27、Requests與正則表達式抓取貓眼電影排行
下一篇文章:Python3網絡爬蟲實戰---29、解析庫的使用:BeautifulSoup
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/44086.html
摘要:運行結果如果運行結果一致則證明安裝成功。上一篇文章網絡爬蟲實戰請求庫安裝下一篇文章網絡爬蟲實戰數據庫的安裝 上一篇文章:Python3網絡爬蟲實戰---2、請求庫安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網絡爬蟲實戰---數據庫的安裝:MySQL、MongoDB、Redis 抓取下網頁代碼之后,下一步就是從網頁中提取信息,提取信息的方式有...
摘要:所以我們如果想獲取電影,只需要分開請求次,而次的參數設置為,,,,即可,這樣我們獲取不同的頁面結果之后再用正則表達式提取出相關信息就可以得到的所有電影信息了。上一篇文章網絡爬蟲實戰正則表達式下一篇文章網絡爬蟲實戰解析庫的使用 上一篇文章:Python3網絡爬蟲實戰---26、正則表達式下一篇文章:Python3網絡爬蟲實戰---28、解析庫的使用:XPath 本節我們利用 Reque...
摘要:解析器在解析的時候實際上是依賴于解析器的,它除了支持標準庫中的解析器,還支持一些第三方的解析器比如,下面我們對支持的解析器及它們的一些優缺點做一個簡單的對比。 上一篇文章:Python3網絡爬蟲實戰---28、解析庫的使用:XPath下一篇文章:Python3網絡爬蟲實戰---30、解析庫的使用:PyQuery 前面我們介紹了正則表達式的相關用法,但是一旦正則寫的有問題,可能得到的就...
摘要:上一篇文章網絡爬蟲實戰爬蟲框架的安裝下一篇文章網絡爬蟲實戰部署相關庫的安裝的安裝是一個中支持渲染的工具,本節來介紹一下它的安裝方式。另外一個是的庫的安裝,安裝之后即可在中使用服務。 上一篇文章:Python3網絡爬蟲實戰---10、爬蟲框架的安裝:PySpider、Scrapy下一篇文章:Python3網絡爬蟲實戰---12、部署相關庫的安裝:Docker、Scrapyd Scrap...
摘要:在前面我們講到了和的概念,我們向網站的服務器發送一個,返回的的便是網頁源代碼。渲染頁面有時候我們在用或抓取網頁時,得到的源代碼實際和瀏覽器中看到的是不一樣的。所以使用基本請求庫得到的結果源代碼可能跟瀏覽器中的頁面源代碼不太一樣。 上一篇文章:Python3網絡爬蟲實戰---16、Web網頁基礎下一篇文章:Python3網絡爬蟲實戰---18、Session和Cookies 爬蟲,即網...
閱讀 3665·2021-09-07 09:59
閱讀 724·2019-08-29 15:12
閱讀 808·2019-08-29 11:14
閱讀 1313·2019-08-26 13:27
閱讀 2666·2019-08-26 10:38
閱讀 3137·2019-08-23 18:07
閱讀 1278·2019-08-23 14:40
閱讀 1929·2019-08-23 12:38