国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

python爬蟲神器PyQuery的使用方法

codecraft / 777人閱讀

摘要:語(yǔ)法與幾乎完全相同,所以不用再去費(fèi)心去記一些奇怪的方法了。目前版本官方文檔簡(jiǎn)介可讓你用的語(yǔ)法來(lái)對(duì)進(jìn)行操作。如果利用,對(duì)和的處理將更快。因此執(zhí)行上述操作之后,本身也發(fā)生了變化。操作同樣的原汁原味的語(yǔ)法運(yùn)行結(jié)果這不需要多解釋了吧。

前言

你是否覺得 XPath 的用法多少有點(diǎn)晦澀難記呢?

你是否覺得 BeautifulSoup 的語(yǔ)法多少有些慳吝難懂呢?

你是否甚至還在苦苦研究正則表達(dá)式卻因?yàn)樯傩┝艘粋€(gè)點(diǎn)而抓狂呢?

你是否已經(jīng)有了一些前端基礎(chǔ)了解選擇器卻與另外一些奇怪的選擇器語(yǔ)法混淆了呢?

嗯,那么,前端大大們的福音來(lái)了,PyQuery 來(lái)了,乍聽名字,你一定聯(lián)想到了 jQuery,如果你對(duì) jQuery 熟悉,那么 PyQuery 來(lái)解析文檔就是不二之選!包括我在內(nèi)!

PyQueryPython 仿照 jQuery 的嚴(yán)格實(shí)現(xiàn)。語(yǔ)法與 jQuery 幾乎完全相同,所以不用再去費(fèi)心去記一些奇怪的方法了。

天下竟然有這等好事?我都等不及了!

安裝

有這等神器還不趕緊安裝了!來(lái)!

pip install pyquery
參考來(lái)源

本文內(nèi)容參考官方文檔,更多內(nèi)容,大家可以去官方文檔學(xué)習(xí),畢竟那里才是最原汁原味的。

目前版本 1.2.4 (2016/3/24)

官方文檔

簡(jiǎn)介

pyquery allows you to make jquery queries on xml documents. The API is
as much as possible the similar to jquery. pyquery uses lxml for fast
xml and html manipulation. This is not (or at least not yet) a library
to produce or interact with javascript code. I just liked the jquery
API and I missed it in python so I told myself “Hey let’s make jquery
in python”. This is the result. It can be used for many purposes, one
idea that I might try in the future is to use it for templating with
pure http templates that you modify using pyquery. I can also be used
for web scrapping or for theming applications with Deliverance.

pyquery 可讓你用 jQuery 的語(yǔ)法來(lái)對(duì) xml 進(jìn)行操作。這I和 jQuery 十分類似。如果利用 lxml,pyquery 對(duì) xml 和 html 的處理將更快。

這個(gè)庫(kù)不是(至少還不是)一個(gè)可以和 JavaScript交互的代碼庫(kù),它只是非常像 jQuery API 而已。

初始化

在這里介紹四種初始化方式。

(1)直接字符串
from pyquery import PyQuery as pq
doc = pq("")

pq 參數(shù)可以直接傳入 HTML 代碼,doc 現(xiàn)在就相當(dāng)于 jQuery 里面的 $ 符號(hào)了。

(2)lxml.etree
from lxml import etree
doc = pq(etree.fromstring(""))

可以首先用 lxmletree 處理一下代碼,這樣如果你的 HTML 代碼出現(xiàn)一些不完整或者疏漏,都會(huì)自動(dòng)轉(zhuǎn)化為完整清晰結(jié)構(gòu)的 HTML代碼。

(3)直接傳URL
from pyquery import PyQuery as pq
doc = pq("http://www.baidu.com")

這里就像直接請(qǐng)求了一個(gè)網(wǎng)頁(yè)一樣,類似用 urllib2 來(lái)直接請(qǐng)求這個(gè)鏈接,得到 HTML 代碼。

(4)傳文件
from pyquery import PyQuery as pq
doc = pq(filename="hello.html")

可以直接傳某個(gè)路徑的文件名。

快速體驗(yàn)

現(xiàn)在我們以本地文件為例,傳入一個(gè)名字為 hello.html 的文件,文件內(nèi)容為


編寫如下程序

from pyquery import PyQuery as pq
doc = pq(filename="hello.html")
print doc.html()
print type(doc)
li = doc("li")
print type(li)
print li.text()

運(yùn)行結(jié)果

    
 


first item second item third item fourth item fifth item

看,回憶一下 jQuery 的語(yǔ)法,是不是運(yùn)行結(jié)果都是一樣的呢?

在這里我們注意到了一點(diǎn),PyQuery 初始化之后,返回類型是 PyQuery,利用了選擇器篩選一次之后,返回結(jié)果的類型依然還是 PyQuery,這簡(jiǎn)直和 jQuery 如出一轍,不能更贊!然而想一下 BeautifulSoupXPath 返回的是什么?列表!一種不能再進(jìn)行二次篩選(在這里指依然利用 BeautifulSoup 或者 XPath 語(yǔ)法)的對(duì)象!

然而比比 PyQuery,哦我簡(jiǎn)直太愛它了!

屬性操作

你可以完全按照 jQuery 的語(yǔ)法來(lái)進(jìn)行 PyQuery 的操作。

from pyquery import PyQuery as pq

p = pq("

")("p") print p.attr("id") print p.attr("id", "plop") print p.attr("id", "hello")

運(yùn)行結(jié)果

hello

再來(lái)一發(fā)

from pyquery import PyQuery as pq

p = pq("

")("p") print p.addClass("beauty") print p.removeClass("hello") print p.css("font-size", "16px") print p.css({"background-color": "yellow"})

運(yùn)行結(jié)果

依舊是那么優(yōu)雅與自信!

在這里我們發(fā)現(xiàn)了,這是一連串的操作,而 p 是一直在原來(lái)的結(jié)果上變化的。

因此執(zhí)行上述操作之后,p 本身也發(fā)生了變化。

DOM操作

同樣的原汁原味的 jQuery 語(yǔ)法

from pyquery import PyQuery as pq

p = pq("

")("p") print p.append(" check out

運(yùn)行結(jié)果

check out reddit

Oh yes! check out reddit

Oh yes! check out reddit

Oh yes! check out reddit

Germy

這不需要多解釋了吧。

DOM 操作也是與 jQuery 如出一轍。

遍歷

遍歷用到 items 方法返回對(duì)象列表,或者用 lambda

from pyquery import PyQuery as pq
doc = pq(filename="hello.html")
lis = doc("li")
for li in lis.items():
    print li.html()

print lis.each(lambda e: e)

運(yùn)行結(jié)果

first item
second item
third item
fourth item
fifth item
  • first item
  • second item
  • third item
  • fourth item
  • fifth item
  • 不過(guò)最常用的還是 items 方法

    網(wǎng)頁(yè)請(qǐng)求

    PyQuery 本身還有網(wǎng)頁(yè)請(qǐng)求功能,而且會(huì)把請(qǐng)求下來(lái)的網(wǎng)頁(yè)代碼轉(zhuǎn)為 PyQuery 對(duì)象。

    from pyquery import PyQuery as pq
    print pq("http://cuiqingcai.com/", headers={"user-agent": "pyquery"})
    print pq("http://httpbin.org/post", {"foo": "bar"}, method="post", verify=True)
    

    感受一下,GETPOST,樣樣通。

    Ajax

    PyQuery 同樣支持 Ajax 操作,帶有 getpost 方法,不過(guò)不常用,一般我們不會(huì)用 PyQuery 來(lái)做網(wǎng)絡(luò)請(qǐng)求,僅僅是用來(lái)解析。

    PyQueryAjax

    API

    最后少不了的,API大放送。

    API

    原汁原味最全的API,都在里面了!如果你對(duì) jQuery 語(yǔ)法不熟,強(qiáng)烈建議先學(xué)習(xí)下 jQuery,再回來(lái)看 PyQuery,你會(huì)感到異常親切!

    結(jié)語(yǔ)

    用完了 PyQuery,我已經(jīng)深深愛上了他!

    你呢?

    轉(zhuǎn)自:http://cuiqingcai.com/2636.html

    文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

    轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/37972.html

    相關(guān)文章

    • Google推出爬蟲神器:Pyppeteer,神擋殺神,佛擋殺佛!

      摘要:注意,是叫做,不是。兩款瀏覽器同根同源,它們有著同樣的,但配色不同,由藍(lán)紅綠黃四種顏色組成,而由不同深度的藍(lán)色構(gòu)成。另外是基于的新特性實(shí)現(xiàn)的,所以它的一些執(zhí)行也支持異步操作,效率相對(duì)于來(lái)說(shuō)也提高了。是否響應(yīng)信號(hào),一般是命令,默認(rèn)是。 如果大家對(duì) Python 爬蟲有所了解的話,想必你應(yīng)該聽說(shuō)過(guò) Selenium 這個(gè)庫(kù),這實(shí)際上是一個(gè)自動(dòng)化測(cè)試工具,現(xiàn)在已經(jīng)被廣泛用于網(wǎng)絡(luò)爬蟲中來(lái)應(yīng)對(duì) ...

      Fundebug 評(píng)論0 收藏0
    • python常用

      摘要:經(jīng)常用的包有如下解析的利器誠(chéng)如所言進(jìn)行請(qǐng)求那是相當(dāng)?shù)姆奖悖m然也可以用打包利器,曾經(jīng)也用過(guò),不過(guò)相比較而已,現(xiàn)在更好用了操作的庫(kù),性能卓越軟件測(cè)試的利器,配合已有類庫(kù)或者自己寫的類庫(kù),做測(cè)試杠杠的。 經(jīng)常用的python包有如下 lxml 解析xml的利器 requests 誠(chéng)如所言HTTP for human. 進(jìn)行http請(qǐng)求那是相當(dāng)?shù)姆奖?,雖然也可以用urllib/url...

      sunny5541 評(píng)論0 收藏0
    • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---30、解析庫(kù)使用PyQuery

      摘要:父節(jié)點(diǎn)我們可以用方法來(lái)獲取某個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn),我們用一個(gè)實(shí)例來(lái)感受一下運(yùn)行結(jié)果在這里我們首先用選取了為的節(jié)點(diǎn),然后調(diào)用了方法,得到其父節(jié)點(diǎn),類型依然是類型。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---29、解析庫(kù)的使用:BeautifulSoup下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---31、數(shù)據(jù)存儲(chǔ):文件存儲(chǔ) 在上一節(jié)我們介紹了 BeautifulSoup 的使用,它是一個(gè)非常強(qiáng)...

      IntMain 評(píng)論0 收藏0
    • 首次公開,整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

      摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

      Harriet666 評(píng)論0 收藏0
    • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---4、數(shù)據(jù)庫(kù)安裝:MySQL、MongoDB、Redis

      摘要:運(yùn)行結(jié)果如果運(yùn)行結(jié)果一致則證明安裝成功。上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)數(shù)據(jù)庫(kù)的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---數(shù)據(jù)庫(kù)的安裝:MySQL、MongoDB、Redis 抓取下網(wǎng)頁(yè)代碼之后,下一步就是從網(wǎng)頁(yè)中提取信息,提取信息的方式有...

      xbynet 評(píng)論0 收藏0

    發(fā)表評(píng)論

    0條評(píng)論

    最新活動(dòng)
    閱讀需要支付1元查看
    <