XPath 是一個好工具

codecraft 發布于2019-08-27 10:51 / 901人閱讀

摘要：一個表達式是由一個或多個被分割的定位步組成。對于此類斷言，我們可以使用謂詞根據額外的遍歷樹來過濾出符合條件的節點。所以用來做一些低水平或與應用無關的事情遍歷樹來找指定屬性的節點讓人蛋疼。這是一個專門用來讓你使用簡潔的慣用表達式來遍歷的工具。

編者注: XPath 即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。
XPath基于XML的樹狀結構，提供在數據結構樹中找尋節點的能力。起初XPath的提出的初衷是將其作為一個通用的、介于XPointer與XSL間的語法模型。但是XPath很快的被開發者采用來當作小型查詢語言。

我第一次接觸XPath是在2007年，但最近才開始對它產生興趣。以前在大多數情況下我都會盡量避免使用它，而當我不得不嘗試使用它時，每次都以失敗告終。那時XPath對我來說并沒有什么意義。

但是后來我遇到了一個特殊的解析問題（對CSS選擇器來說過于復雜，而用手工代碼的話又過于簡單），于是我決定再嘗試一次XPath。令我感到驚喜的是，這的確行得通，而且很有用。

以下是我的親身經歷

我遇到的問題

假設你管理一個歌詞網站，為了維持一致的閱讀體驗，你要收集每行歌詞的第一個單詞。如果歌詞使用純文本格式保存，那么可以直接用下面的代碼來實現。

lyrics.gsub!(/^./) { |character| character.upcase }

但是如果歌詞被保存肯html格式就沒有這么簡單了，因為dom結構本身并沒有”行”的概念，所以沒有辦法使用一個簡單的正則表達式來識別行。

所以我們要做的第一件事情是定義什么是dom結構中的“行的起點”，下面是兩個簡單的例子：

標簽中第一個文本節點

后面的第一個文本節點
就像下面這樣:

This is the beginning of a line.This is too.

但是除此之外我們可能還要處理嵌套的行內元素：

This is the beginning of a line. This is not.

常規的解決方案

我想到的第一個解決方法是用Ruby寫一個方法來掃描dom中所有相關的部分并遞歸找出所有符合條件的節點。其中用到了幾個輕量級的css選擇器：

def each_new_line(document)
  document.css("p").each { |p| yield first_text_node(p) }
  document.css("br").each { |br| yield first_text_node(br.next) }
end

def first_text_node(node)
  if node.nil? then nil
  elsif node.text? then node
  elsif node.children.any? then first_text_node(node.children.first)
  end
end

這是一個比較合理的解決方案，但是11行的代碼似乎有點兒長。有點兒殺雞用牛刀的感覺，僅僅為了獲得dom的節點而用上Ruby的迭代器和條件語句感覺有點兒犯不上。應該有更好的辦法吧？

終于說到正題了（XPath）

XPath有一下幾個原因容易讓人困惑。第一點是網上幾乎沒有可以參考的東西（W3Schools！就不用想了）。RFC已經是我找到的最好的文檔了。

第二點是XPath看上去有點兒像CSS。方法名里就有“path”，所以我總是假設XPath的表達式中的 / 和CSS選擇器中的 > 是一個意思。

document.xpath("http://p/em/a") == document.css("p > em > a")

其實，XPath表達式包含了許多簡寫，如果我們想要弄清楚上面代碼運行時究竟發生了什么就必須要弄清楚這些簡寫。下面是用全拼寫出來的相同的表達式：

/descendant-or-self::node()/child::p/child::em/child::a/

這個XPath表達式和上面的CSS選擇器的作用是一樣的，但并不像我之前假設的那樣。一個XPath表達式是由一個或多個被 / 分割的定位步（location steps）組成。表達式中的第一個 / 代表了文檔（document）的根節點。每個定位步都表明了已經被匹配的節點并傳達一下三條信息：

我想從當前的位置移動到哪？

答案是軸（Axis），是可選的。默認的軸是child，表示“當前被選中節點的所有子節點”。在上面的例子中，descendant-or-self是第一個定位部的軸，表示“所有當前被選中的節點和他們所有的子節點”。大部分XPath規范中定義的軸都有像“descendant-or-self”這樣的語義化的名字。

我想要選擇什么類型的節點？

選擇的內容是由節點測試來指定的，這也是每個定位步中不可缺少的部分。在我們之前的例子中，node()匹配的是全部類型；text（）匹配到的是文本節點；element()只能匹配到元素，并必須指明節點名稱（像p,em等），節點名稱必填。

可能增加額外的過濾器嗎？

也許我們只想選擇當前所有節點的第一個子元素或只想選則有href屬性的標簽。對于此類斷言（assertion），我們可以使用謂詞（predicates）根據額外的遍歷樹（additional tree traversals）來過濾出符合條件的節點。這樣我們就可以根據這些節點的屬性（children, parents, or siblings）來過濾出符合條件的節點。

我們的例子中沒有謂詞，現在讓我們來加一個只匹配有href屬性的標簽：

/descendant-or-self::node()/child::p/child::em/child::a[attribute::href]

雖然謂詞看上去很像一個括號中的定位步，但是謂詞中的“節點測試（node test）”部分有比定位步中的節點測試更多的功能。

換一個角度來看XPath

與一個增強型的CSS選擇器相比，XPath與JQuery的便利更相似。例如，我們可以把之前的XPath表達式換成JQuery的形式：

$(document).find("*").
  children("p").
  children("em").
  children("a").filter("[href]")

上面的代碼中，我們用到的JQuery的方法與軸的作用是一樣的：

.children()相當于軸中的child，.find()相當于descendant。

JQuery方法中的選擇器相當于XPath中的節點測試，只可惜jQuery不允許選擇文本節點。

jQuery中的.filter()方法相當于XPath中的謂詞，.children(‘em’)的作用是匹配所有匹配到的

標簽中的所有子元素。這樣看來，XPah要比jQuery強大得多。

云服務器 GPU云服務器 xpath php操作xpath php之xpath類我是一個

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/110334.html

上一篇：Builder——用Ruby創建XML

下一篇：淺析SAX,DOM,JAXP,JDOM與DOM4J之間的關系

相關文章

XPath 是一個好工具

摘要：一個表達式是由一個或多個被分割的定位步組成。對于此類斷言，我們可以使用謂詞根據額外的遍歷樹來過濾出符合條件的節點。所以用來做一些低水平或與應用無關的事情遍歷樹來找指定屬性的節點讓人蛋疼。這是一個專門用來讓你使用簡潔的慣用表達式來遍歷的工具。編者注: XPath 即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。 XPat...

Ilikewhite 2019-08-28 17:54 評論0 收藏0

Selenium+python親測爬蟲工具爬取年度電影榜單

摘要：介紹是一個用于應用程序測試的工具，測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。支持的瀏覽器包括，，，，，等，它在的領域里的引用能使初學者大大的省去解析網頁中代加密的一些麻煩。 Selenium介紹 Selenium 是一個用于Web應用程序測試的工具，Selenium測試直接運行在瀏覽...

Jiavan 2021-09-04 16:40 評論0 收藏0

軟件接口測試工具Jmeter使用核心詳解【建議收藏】

用Jmeter做接口測試只需要掌握幾個核心功能就可以了。并不一定要把它所有的功能都掌握，先掌握核心功能入行，然后再根據工作需要和職業規劃來學習更多的內容。這篇文章在前面接口測試框架（測試計劃--->線程組--->請求--->查看結果樹）的前提下，來介紹必須要掌握的幾個核心功能，力求用最短的時間取得最大的成果。在前面的文章中我提到，用Jmeter做接口測試的核心是單接口測試的參數化和關聯接口測試...

zoomdong 2021-09-09 09:32 評論0 收藏0

以后再有人問你selenium是什么，你就把這篇文章給他

摘要：不同目標的自動化測試有不同的測試工具，但是任何工具都無不例外的需要編程的過程，實現源代碼，也可以稱之為測試腳本。寫在最前面：目前自動化測試并不屬于新鮮的事物，或者說自動化測試的各種方法論已經層出不窮，但是，能夠在項目中持之以恒的實踐自動化測試的團隊，卻依舊不是非常多。有的團隊知道怎么做，做的還不夠好；有的團隊還正在探索和摸索怎么做，甚至還有一些多方面的技術上和非技術上的舊系統需要重構……...

Keven 2019-05-23 12:07 評論0 收藏0

發表評論

登陸后可評論

0條評論

codecraft

男|高級講師

我要關注我要私信

TA的文章
閱讀更多

邊緣計算如何提高效率，實現 5G

閱讀 1115·2021-11-16 11:42

VPSMS：53元/月KVM-512MB/15G SSD/1TB/洛杉磯CN2 GIA

閱讀 2895·2021-10-12 10:18

【程序員必會十大算法】之分治算法（漢諾塔問題）

閱讀 2853·2021-09-24 09:48

Flexbox響應式網頁布局 - W3Schools視頻02

閱讀 3457·2019-08-30 15:56

sublime Text3 前端常用插件

閱讀 1522·2019-08-30 14:17

在API 中，常用的code碼

閱讀 3036·2019-08-29 12:14

XPath 是一個好工具

閱讀 902·2019-08-27 10:51

溫故而知新：JS 變量提升與時間死區

閱讀 2020·2019-08-26 13:28

最新活動

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

XPath 是一個好工具

我想從當前的位置移動到哪？

我想要選擇什么類型的節點？

可能增加額外的過濾器嗎？

相關文章

XPath 是一個好工具

Selenium+python親測爬蟲工具爬取年度電影榜單

軟件接口測試工具Jmeter使用核心詳解【建議收藏】

以后再有人問你selenium是什么，你就把這篇文章給他

發表評論

0條評論

codecraft

男|高級講師

TA的文章

邊緣計算如何提高效率，實現 5G

VPSMS：53元/月KVM-512MB/15G SSD/1TB/洛杉磯CN2 GIA

【程序員必會十大算法】之分治算法（漢諾塔問題）

Flexbox響應式網頁布局 - W3Schools視頻02

sublime Text3 前端常用插件

在API 中，常用的code碼

XPath 是一個好工具

溫故而知新：JS 變量提升與時間死區

最新活動