摘要:注意,是叫做,不是。兩款瀏覽器同根同源,它們有著同樣的,但配色不同,由藍(lán)紅綠黃四種顏色組成,而由不同深度的藍(lán)色構(gòu)成。另外是基于的新特性實現(xiàn)的,所以它的一些執(zhí)行也支持異步操作,效率相對于來說也提高了。是否響應(yīng)信號,一般是命令,默認(rèn)是。
如果大家對 Python 爬蟲有所了解的話,想必你應(yīng)該聽說過 Selenium 這個庫,這實際上是一個自動化測試工具,現(xiàn)在已經(jīng)被廣泛用于網(wǎng)絡(luò)爬蟲中來應(yīng)對 JavaScript 渲染的頁面的抓取。
但 Selenium 用的時候有個麻煩事,就是環(huán)境的相關(guān)配置,得安裝好相關(guān)瀏覽器,比如 Chrome、Firefox 等等,然后還要到官方網(wǎng)站去下載對應(yīng)的驅(qū)動,最重要的還需要安裝對應(yīng)的 Python Selenium 庫,確實是不是很方便,另外如果要做大規(guī)模部署的話,環(huán)境配置的一些問題也是個頭疼的事情。
那么本節(jié)就介紹另一個類似的替代品,叫做 Pyppeteer。注意,是叫做 Pyppeteer,不是 Puppeteer。Puppeteer 是 Google 基于 Node.js 開發(fā)的一個工具,有了它我們可以通過 JavaScript 來控制 Chrome 瀏覽器的一些操作,當(dāng)然也可以用作網(wǎng)絡(luò)爬蟲上,其 API 極其完善,功能非常強大。而 Pyppeteer 又是什么呢?它實際上是 Puppeteer 的 Python 版本的實現(xiàn),但他不是 Google 開發(fā)的,是一位來自于日本的工程師依據(jù) Puppeteer 的一些功能開發(fā)出來的非官方版本。
在 Pyppetter 中,實際上它背后也是有一個類似 Chrome 瀏覽器的 Chromium 瀏覽器在執(zhí)行一些動作進(jìn)行網(wǎng)頁渲染,首先說下 Chrome 瀏覽器和 Chromium 瀏覽器的淵源。
Chromium 是谷歌為了研發(fā) Chrome 而啟動的項目,是完全開源的。二者基于相同的源代碼構(gòu)建,Chrome 所有的新功能都會先在 Chromium 上實現(xiàn),待驗證穩(wěn)定后才會移植,因此 Chromium 的版本更新頻率更高,也會包含很多新的功能,但作為一款獨立的瀏覽器,Chromium 的用戶群體要小眾得多。兩款瀏覽器“同根同源”,它們有著同樣的 Logo,但配色不同,Chrome 由藍(lán)紅綠黃四種顏色組成,而 Chromium 由不同深度的藍(lán)色構(gòu)成。
總的來說,兩款瀏覽器的內(nèi)核是一樣的,實現(xiàn)方式也是一樣的,可以認(rèn)為是開發(fā)版和正式版的區(qū)別,功能上基本是沒有太大區(qū)別的。
Pyppeteer 就是依賴于 Chromium 這個瀏覽器來運行的。那么有了 Pyppeteer 之后,我們就可以免去那些繁瑣的環(huán)境配置等問題。如果第一次運行的時候,Chromium 瀏覽器沒有安全,那么程序會幫我們自動安裝和配置,就免去了繁瑣的環(huán)境配置等工作。另外 Pyppeteer 是基于 Python 的新特性 async 實現(xiàn)的,所以它的一些執(zhí)行也支持異步操作,效率相對于 Selenium 來說也提高了。
那么下面就讓我們來一起了解下 Pyppeteer 的相關(guān)用法吧。
安裝首先就是安裝問題了,由于 Pyppeteer 采用了 Python 的 async 機制,所以其運行要求的 Python 版本為 3.5 及以上。
安裝方式非常簡單:
pip3?install?pyppeteer
好了,安裝完成之后我們命令行下測試下:
>>>?import?pyppeteer
如果沒有報錯,那么就證明安裝成功了。
快速上手接下來我們測試下基本的頁面渲染操作,這里我們選用的網(wǎng)址為:http://quotes.toscrape.com/js/,這個頁面是 JavaScript 渲染而成的,用基本的 requests 庫請求得到的 HTML 結(jié)果里面是不包含頁面中所見的條目內(nèi)容的。
為了證明 requests 無法完成正常的抓取,我們可以先用如下代碼來測試一下:
import requests from pyquery import PyQuery as pq url = "http://quotes.toscrape.com/js/" response = requests.get(url) doc = pq(response.text) print("Quotes:", doc(".quote").length)
這里首先使用 requests 來請求網(wǎng)頁內(nèi)容,然后使用 pyquery 來解析頁面中的每一個條目。觀察源碼之后我們發(fā)現(xiàn)每個條目的 class 名為 quote,所以這里選用了 .quote 這個 CSS 選擇器來選擇,最后輸出條目數(shù)量。
運行結(jié)果:
Quotes:?0
結(jié)果是 0,這就證明使用 requests 是無法正常抓取到相關(guān)數(shù)據(jù)的。因為什么?因為這個頁面是 JavaScript 渲染而成的,我們所看到的內(nèi)容都是網(wǎng)頁加載后又執(zhí)行了 JavaScript 之后才呈現(xiàn)出來的,因此這些條目數(shù)據(jù)并不存在于原始 HTML 代碼中,而 requests 僅僅抓取的是原始 HTML 代碼。
好的,所以遇到這種類型的網(wǎng)站我們應(yīng)該怎么辦呢?
其實答案有很多:
分析網(wǎng)頁源代碼數(shù)據(jù),如果數(shù)據(jù)是隱藏在 HTML 中的其他地方,以 JavaScript 變量的形式存在,直接提取就好了。
分析 Ajax,很多數(shù)據(jù)可能是經(jīng)過 Ajax 請求時候獲取的,所以可以分析其接口。
模擬 JavaScript 渲染過程,直接抓取渲染后的結(jié)果。
而 Pyppeteer 和 Selenium 就是用的第三種方法,下面我們再用 Pyppeteer 來試試,如果用 Pyppeteer 實現(xiàn)如上頁面的抓取的話,代碼就可以寫為如下形式:
import asyncio from pyppeteer import launch from pyquery import PyQuery as pq async def main(): browser = await launch() page = await browser.newPage() await page.goto("http://quotes.toscrape.com/js/") doc = pq(await page.content()) print("Quotes:", doc(".quote").length) await browser.close() asyncio.get_event_loop().run_until_complete(main())
運行結(jié)果:
Quotes:?10
看運行結(jié)果,這說明我們就成功匹配出來了 class 為 quote 的條目,總數(shù)為 10 條,具體的內(nèi)容可以進(jìn)一步使用 pyquery 解析查看。
那么這里面的過程發(fā)生了什么?
實際上,Pyppeteer 整個流程就完成了瀏覽器的開啟、新建頁面、頁面加載等操作。另外 Pyppeteer 里面進(jìn)行了異步操作,所以需要配合 async/await 關(guān)鍵詞來實現(xiàn)。
首先, launch 方法會新建一個 Browser 對象,然后賦值給 browser,然后調(diào)用 newPage ?方法相當(dāng)于瀏覽器中新建了一個選項卡,同時新建了一個 Page 對象。然后 Page 對象調(diào)用了 goto 方法就相當(dāng)于在瀏覽器中輸入了這個 URL,瀏覽器跳轉(zhuǎn)到了對應(yīng)的頁面進(jìn)行加載,加載完成之后再調(diào)用 content 方法,返回當(dāng)前瀏覽器頁面的源代碼。然后進(jìn)一步地,我們用 pyquery 進(jìn)行同樣地解析,就可以得到 JavaScript 渲染的結(jié)果了。
另外其他的一些方法如調(diào)用 asyncio 的 get_event_loop 等方法的相關(guān)操作則屬于 Python 異步 async 相關(guān)的內(nèi)容了,大家如果不熟悉可以了解下 Python 的 async/await 的相關(guān)知識。
好,通過上面的代碼,我們就可以完成 JavaScript 渲染頁面的爬取了。
在這個過程中,我們沒有配置 Chrome 瀏覽器,沒有配置瀏覽器驅(qū)動,免去了一些繁瑣的步驟,同樣達(dá)到了 Selenium 的效果,還實現(xiàn)了異步抓取,爽歪歪!
接下來我們再看看另外一個例子,這個例子可以模擬網(wǎng)頁截圖,保存 PDF,另外還可以執(zhí)行自定義的 JavaScript 獲得特定的內(nèi)容,代碼如下:
import asyncio from pyppeteer import launch async def main(): browser = await launch() page = await browser.newPage() await page.goto("http://quotes.toscrape.com/js/") await page.screenshot(path="example.png") await page.pdf(path="example.pdf") dimensions = await page.evaluate("""() => { return { width: document.documentElement.clientWidth, height: document.documentElement.clientHeight, deviceScaleFactor: window.devicePixelRatio, } }""") print(dimensions) # >>> {"width": 800, "height": 600, "deviceScaleFactor": 1} await browser.close() asyncio.get_event_loop().run_until_complete(main())
這里我們又用到了幾個新的 API,完成了網(wǎng)頁截圖保存、網(wǎng)頁導(dǎo)出 PDF 保存、執(zhí)行 JavaScript 并返回對應(yīng)數(shù)據(jù)。
首先 screenshot 方法可以傳入保存的圖片路徑,另外還可以指定保存格式 type、清晰度 quality、是否全屏 fullPage、裁切 clip 等各個參數(shù)實現(xiàn)截圖。
截圖的樣例如下:
可以看到它返回的就是 JavaScript 渲染后的頁面。
pdf 方法也是類似的,只不過頁面保存格式不一樣,最后得到一個多頁的 pdf 文件,樣例如下:
可見其內(nèi)容也是 JavaScript 渲染后的內(nèi)容,另外這個方法還可以指定放縮大小 scale、頁碼范圍 pageRanges、寬高 width 和 height、方向 landscape 等等參數(shù),導(dǎo)出定制化的 pdf 用這個方法就十分方便。
最后我們又調(diào)用了 evaluate 方法執(zhí)行了一些 JavaScript,JavaScript 傳入的是一個函數(shù),使用 return 方法返回了網(wǎng)頁的寬高、像素大小比率三個值,最后得到的是一個 JSON 格式的對象,內(nèi)容如下:
{"width":?800,?"height":?600,?"deviceScaleFactor":?1}
OK,實例就先感受到這里,還有太多太多的功能還沒提及。
總之利用 Pyppeteer 我們可以控制瀏覽器執(zhí)行幾乎所有動作,想要的操作和功能基本都可以實現(xiàn),用它來自由地控制爬蟲當(dāng)然就不在話下了。
詳細(xì)用法了解了基本的實例之后,我們再來梳理一下 Pyppeteer 的一些基本和常用操作。Pyppeteer 的幾乎所有功能都能在其官方文檔的 API Reference 里面找到,鏈接為:https://miyakogi.github.io/py...,用到哪個方法就來這里查詢就好了,參數(shù)不必死記硬背,即用即查就好。
開啟瀏覽器使用 Pyppeteer 的第一步便是啟動瀏覽器,首先我們看下怎樣啟動一個瀏覽器,其實就相當(dāng)于我們點擊桌面上的瀏覽器圖標(biāo)一樣,把它開起來。用 Pyppeteer 完成同樣的操作,只需要調(diào)用 launch 方法即可。
我們先看下 launch 方法的 API,鏈接為:
https://miyakogi.github.io/py...,
其方法定義如下:
pyppeteer.launcher.launch(options:?dict?=?None,?**kwargs)?→?pyppeteer.browser.Browser
可以看到它處于 launcher 模塊中,參數(shù)沒有在聲明中特別指定,返回類型是 browser 模塊中的 Browser 對象,另外觀察源碼發(fā)現(xiàn)這是一個 async 修飾的方法,所以調(diào)用它的時候需要使用 await。
接下來看看它的參數(shù):
ignoreHTTPSErrors (bool): 是否要忽略 HTTPS 的錯誤,默認(rèn)是 False。
headless (bool): 是否啟用 Headless 模式,即無界面模式,如果 devtools 這個參數(shù)是 True 的話,那么該參數(shù)就會被設(shè)置為 False,否則為 True,即默認(rèn)是開啟無界面模式的。
executablePath (str): 可執(zhí)行文件的路徑,如果指定之后就不需要使用默認(rèn)的 Chromium 了,可以指定為已有的 Chrome 或 Chromium。
slowMo (int|float): 通過傳入指定的時間,可以減緩 Pyppeteer 的一些模擬操作。
args (List[str]): 在執(zhí)行過程中可以傳入的額外參數(shù)。
ignoreDefaultArgs (bool): 不使用 Pyppeteer 的默認(rèn)參數(shù),如果使用了這個參數(shù),那么最好通過 args 參數(shù)來設(shè)定一些參數(shù),否則可能會出現(xiàn)一些意想不到的問題。這個參數(shù)相對比較危險,慎用。
handleSIGINT (bool): 是否響應(yīng) SIGINT 信號,也就是可以使用 Ctrl + C 來終止瀏覽器程序,默認(rèn)是 True。
handleSIGTERM (bool): 是否響應(yīng) SIGTERM 信號,一般是 kill 命令,默認(rèn)是 True。
handleSIGHUP (bool): 是否響應(yīng) SIGHUP 信號,即掛起信號,比如終端退出操作,默認(rèn)是 True。
dumpio (bool): 是否將 Pyppeteer 的輸出內(nèi)容傳給 process.stdout 和 process.stderr 對象,默認(rèn)是 False。
userDataDir (str): 即用戶數(shù)據(jù)文件夾,即可以保留一些個性化配置和操作記錄。
env (dict): 環(huán)境變量,可以通過字典形式傳入。
devtools (bool): 是否為每一個頁面自動開啟調(diào)試工具,默認(rèn)是 False。如果這個參數(shù)設(shè)置為 True,那么 headless 參數(shù)就會無效,會被強制設(shè)置為 False。
logLevel ?(int|str): 日志級別,默認(rèn)和 root logger 對象的級別相同。
autoClose (bool): 當(dāng)一些命令執(zhí)行完之后,是否自動關(guān)閉瀏覽器,默認(rèn)是 True。
loop (asyncio.AbstractEventLoop): 時間循環(huán)對象。
好了,知道這些參數(shù)之后,我們可以先試試看。
首先可以試用下最常用的參數(shù) headless,如果我們將它設(shè)置為 True 或者默認(rèn)不設(shè)置它,在啟動的時候我們是看不到任何界面的,如果把它設(shè)置為 False,那么在啟動的時候就可以看到界面了,一般我們在調(diào)試的時候會把它設(shè)置為 False,在生產(chǎn)環(huán)境上就可以設(shè)置為 True,我們先嘗試一下關(guān)閉 headless 模式:
import asyncio from pyppeteer import launch async def main(): await launch(headless=False) await asyncio.sleep(100) asyncio.get_event_loop().run_until_complete(main())
運行之后看不到任何控制臺輸出,但是這時候就會出現(xiàn)一個空白的 Chromium 界面了:
關(guān)閉 Headless 模式之后的界面
但是可以看到這就是一個光禿禿的瀏覽器而已,看一下相關(guān)信息:
看到了,這就是 Chromium,上面還寫了開發(fā)者內(nèi)部版本,可以認(rèn)為是開發(fā)版的 Chrome 瀏覽器就好。
另外我們還可以開啟調(diào)試模式,比如在寫爬蟲的時候會經(jīng)常需要分析網(wǎng)頁結(jié)構(gòu)還有網(wǎng)絡(luò)請求,所以開啟調(diào)試工具還是很有必要的,我們可以將 devtools 參數(shù)設(shè)置為 True,這樣每開啟一個界面就會彈出一個調(diào)試窗口,非常方便,示例如下:
import asyncio from pyppeteer import launch async def main(): browser = await launch(devtools=True) page = await browser.newPage() await page.goto("https://www.baidu.com") await asyncio.sleep(100) asyncio.get_event_loop().run_until_complete(main())
剛才說過 devtools 這個參數(shù)如果設(shè)置為了 True,那么 headless 就會被關(guān)閉了,界面始終會顯現(xiàn)出來。在這里我們新建了一個頁面,打開了百度,界面運行效果如下:
這時候我們可以看到上面的一條提示:"Chrome 正受到自動測試軟件的控制",這個提示條有點煩,那咋關(guān)閉呢?這時候就需要用到 args 參數(shù)了,禁用操作如下:
browser?=?await?launch(headless=False,?args=["--disable-infobars"])
這里就不再寫完整代碼了,就是在 launch 方法中,args 參數(shù)通過 list 形式傳入即可,這里使用的是 --disable-infobars 的參數(shù)。
另外有人就說了,這里你只是把提示關(guān)閉了,有些網(wǎng)站還是會檢測到是 webdriver 吧,比如淘寶檢測到是 webdriver 就會禁止登錄了,我們可以試試:
import asyncio from pyppeteer import launch async def main(): browser = await launch(headless=False) page = await browser.newPage() await page.goto("https://www.taobao.com") await asyncio.sleep(100) asyncio.get_event_loop().run_until_complete(main())
運行時候進(jìn)行一下登錄,然后就會彈出滑塊,自己手動拖動一下,然后就報錯了,界面如下:
淘寶登錄失敗<
爬蟲的時候看到這界面是很讓人崩潰的吧,而且這時候我們還發(fā)現(xiàn)了頁面的 bug,整個瀏覽器窗口比顯示的內(nèi)容窗口要大,這個是某些頁面會出現(xiàn)的情況,讓人看起來很不爽。
我們可以先解決一下這個顯示的 bug,需要設(shè)置下 window-size 還有 viewport,代碼如下:
import asyncio from pyppeteer import launch width, height = 1366, 768 async def main(): browser = await launch(headless=False, args=[f"--window-size={width},{height}"]) page = await browser.newPage() await page.setViewport({"width": width, "height": height}) await page.goto("https://www.taobao.com") await asyncio.sleep(100) asyncio.get_event_loop().run_until_complete(main())
這樣整個界面就正常了:
OK,那剛才所說的 webdriver 檢測問題怎樣來解決呢?其實淘寶主要通過
window.navigator.webdriver 來對 webdriver 進(jìn)行檢測,所以我們只需要使用 JavaScript 將它設(shè)置為 false 即可,代碼如下:
import asyncio from pyppeteer import launch async def main(): browser = await launch(headless=False, args=["--disable-infobars"]) page = await browser.newPage() await page.goto("https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/") await page.evaluate( """() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }""") await asyncio.sleep(100) asyncio.get_event_loop().run_until_complete(main())
這里沒加輸入用戶名密碼的代碼,當(dāng)然后面可以自行添加,下面打開之后,我們點擊輸入用戶名密碼,然后這時候會出現(xiàn)一個滑動條,這里滑動的話,就可以通過了,如圖所示:
OK,這樣的話我們就成功規(guī)避了 webdriver 的檢測,使用鼠標(biāo)拖動模擬就可以完成淘寶的登錄了。
還有另一種方法可以進(jìn)一步免去淘寶登錄的煩惱,那就是設(shè)置用戶目錄。平時我們已經(jīng)注意到,當(dāng)我們登錄淘寶之后,如果下次再次打開瀏覽器發(fā)現(xiàn)還是登錄的狀態(tài)。這是因為淘寶的一些關(guān)鍵 Cookies 已經(jīng)保存到本地了,下次登錄的時候可以直接讀取并保持登錄狀態(tài)。
那么這些信息保存在哪里了呢?其實就是保存在用戶目錄下了,里面不僅包含了瀏覽器的基本配置信息,還有一些 Cache、Cookies 等各種信息都在里面,如果我們能在瀏覽器啟動的時候讀取這些信息,那么啟動的時候就可以恢復(fù)一些歷史記錄甚至一些登錄狀態(tài)信息了。
這也就解決了一個問題:很多朋友在每次啟動 Selenium 或 Pyppeteer 的時候總是是一個全新的瀏覽器,那就是沒有設(shè)置用戶目錄,如果設(shè)置了它,每次打開就不再是一個全新的瀏覽器了,它可以恢復(fù)之前的歷史記錄,也可以恢復(fù)很多網(wǎng)站的登錄信息。
那么這個怎么來做呢?很簡單,在啟動的時候設(shè)置 userDataDir 就好了,示例如下:
import asyncio from pyppeteer import launch async def main(): browser = await launch(headless=False, userDataDir="./userdata", args=["--disable-infobars"]) page = await browser.newPage() await page.goto("https://www.taobao.com") await asyncio.sleep(100) asyncio.get_event_loop().run_until_complete(main())
好,這里就是加了一個 userDataDir 的屬性,值為 userdata,即當(dāng)前目錄的 userdata 文件夾。我們可以首先運行一下,然后登錄一次淘寶,這時候我們同時可以觀察到在當(dāng)前運行目錄下又多了一個 userdata 的文件夾,里面的結(jié)構(gòu)是這樣子的:
用戶文件夾
再次運行上面的代碼,這時候可以發(fā)現(xiàn)現(xiàn)在就已經(jīng)是登錄狀態(tài)了,不需要再次登錄了,這樣就成功跳過了登錄的流程。當(dāng)然可能時間太久了,Cookies 都過期了,那還是需要登錄的。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/43926.html
摘要:三結(jié)對編程排位賽四個人為一組,由隊長帶隊刷題,每周根據(jù)這周四個人的刷題總數(shù)進(jìn)行隊伍間排名。萬人千題結(jié)對編程排位賽如果想?yún)⒓拥牡诙诘耐瑢W(xué),可以先聯(lián)系作者加群,看看第一期的同袍是如何奮斗的。 ...
摘要:摘自設(shè)計指南樣式來源上文中提到,之所以有層疊的概念,是因為有多個樣式來源。優(yōu)先級相同條件下例如都來自引用樣式,覆蓋的默認(rèn)規(guī)則是后者覆蓋前者,但是有一個特殊情況,其實優(yōu)先級最高。 這一節(jié)就開始實踐上一節(jié)的思路! 1.層疊的概念 簡言之,層疊就是瀏覽器對多個樣式來源進(jìn)行疊加,最終確定結(jié)果的過程。舉一個簡單的例子: showImg(https://segmentfault.com/img/b...
摘要:爬蟲神器,對加密降維打擊是對無頭瀏覽器的封裝。使用等其他無頭瀏覽器的最大優(yōu)勢當(dāng)然是對加密實行降維打擊,完全無視加密手段,對于一些需要登錄的應(yīng)用,也可以模擬點擊然后保存。請求過濾你的那一段頁面自動下拉腳本 爬蟲神器pyppeteer,對 js 加密降維打擊 pyppeteer?是對無頭瀏覽器?puppeteer的 Python 封裝。無頭瀏覽器廣泛用于自動化測試,同時也是一種很好地爬蟲思...
閱讀 3478·2021-11-08 13:30
閱讀 3584·2019-08-30 15:55
閱讀 688·2019-08-29 15:16
閱讀 1750·2019-08-26 13:57
閱讀 2091·2019-08-26 12:18
閱讀 789·2019-08-26 11:36
閱讀 1733·2019-08-26 11:30
閱讀 3017·2019-08-23 16:46