16、web爬蟲講解2—PhantomJS虛擬瀏覽器+selenium模塊操作PhantomJS

xietao3 發布于2019-07-31 11:25 / 1886人閱讀

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料虛擬瀏覽器是一個基于的內核無頭瀏覽器也就是沒有顯示界面的瀏覽器，利用這個軟件，可以獲取到網址加載的任何信息，也就是可以獲取瀏覽器異步加載的信息下載網址下載對應系統版本下載后解壓文件，將解壓文件夾，剪切

【百度云搜索，搜各種資料:http://www.bdyss.cn】 【搜網盤，搜各種資料:http://www.swpan.cn】

PhantomJS虛擬瀏覽器

phantomjs 是一個基于js的webkit內核無頭瀏覽器也就是沒有顯示界面的瀏覽器，利用這個軟件，可以獲取到網址js加載的任何信息，也就是可以獲取瀏覽器異步加載的信息

下載網址：http://phantomjs.org/download... ?下載對應系統版本

下載后解壓PhantomJS文件，將解壓文件夾，剪切到python安裝文件夾

然后將PhantomJS文件夾里的bin文件夾添加系統環境變量

cdm 輸入命令：PhantomJS ?出現以下信息說明安裝成功

selenium模塊是一個python操作PhantomJS軟件的一個模塊

selenium模塊PhantomJS軟件

webdriver.PhantomJS()實例化PhantomJS瀏覽器對象
get("url")訪問網站
find_element_by_xpath("xpath表達式")通過xpath表達式找對應元素
clear()清空輸入框里的內容
send_keys("內容")將內容寫入輸入框
click()點擊事件
get_screenshot_as_file("截圖保存路徑名稱")將網頁截圖，保存到此目錄
page_source獲取網頁htnl源碼
quit()關閉PhantomJS瀏覽器

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-
from?selenium?import?webdriver??#導入selenium模塊來操作PhantomJS
import?os
import?time
import?re

llqdx?=?webdriver.PhantomJS()??#實例化PhantomJS瀏覽器對象
llqdx.get("https://www.baidu.com/")?#訪問網址

#?time.sleep(3)???#等待3秒
#?llqdx.get_screenshot_as_file("H:/py/17/img/123.jpg")??#將網頁截圖保存到此目錄

#模擬用戶操作
llqdx.find_element_by_xpath("http://*[@id="kw"]").clear()????????????????????#通過xpath表達式找到輸入框，clear()清空輸入框里的內容
llqdx.find_element_by_xpath("http://*[@id="kw"]").send_keys("叫賣錄音網")?????#通過xpath表達式找到輸入框，send_keys()將內容寫入輸入框
llqdx.find_element_by_xpath("http://*[@id="su"]").click()????????????????????#通過xpath表達式找到搜索按鈕,click()點擊事件

time.sleep(3)???#等待3秒
llqdx.get_screenshot_as_file("H:/py/17/img/123.jpg")??#將網頁截圖，保存到此目錄

neir?=?llqdx.page_source???#獲取網頁內容
print(neir)
llqdx.quit()????#關閉瀏覽器

pat?=?"(.*?)"
title?=?re.compile(pat).findall(neir)??#正則匹配網頁標題
print(title)

PhantomJS瀏覽器偽裝，和滾動滾動條加載數據

有些網站是動態加載數據的，需要滾動條滾動加載數據

實現代碼

DesiredCapabilities?偽裝瀏覽器對象
execute_script()執行js代碼

current_url獲取當前的url

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-
from?selenium?import?webdriver??#導入selenium模塊來操作PhantomJS
from?selenium.webdriver.common.desired_capabilities?import?DesiredCapabilities???#導入瀏覽器偽裝模塊
import?os
import?time
import?re

dcap?=?dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"]?=?("Mozilla/5.0?(Windows?NT?10.0;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/49.0.2623.221?Safari/537.36?SE?2.X?MetaSr?1.0")
print(dcap)
llqdx?=?webdriver.PhantomJS(desired_capabilities=dcap)??#實例化PhantomJS瀏覽器對象

llqdx.get("https://www.jd.com/")?#訪問網址

#模擬用戶操作
for?j?in?range(20):
????js3?=?"window.scrollTo("+str(j*1280)+","+str((j+1)*1280)+")"
????llqdx.execute_script(js3)??#執行js語言滾動滾動條
????time.sleep(1)

llqdx.get_screenshot_as_file("H:/py/17/img/123.jpg")??#將網頁截圖，保存到此目錄

url?=?llqdx.current_url
print(url)

neir?=?llqdx.page_source???#獲取網頁內容
print(neir)
llqdx.quit()????#關閉瀏覽器

pat?=?"(.*?)"
title?=?re.compile(pat).findall(neir)??#正則匹配網頁標題
print(title)

【轉載自：http://www.lqkweb.com】

云服務器 GPU云服務器 phantomjs selenium網絡爬蟲 ubuntu 16.04.2 搭建lamp ensp防火墻web管理界面講解

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/45086.html

Python3網絡爬蟲實戰---2、請求庫安裝：GeckoDriver、PhantomJS、Aioh

摘要：上一篇文章網絡爬蟲實戰請求庫安裝下一篇文章網絡爬蟲實戰解析庫的安裝的安裝在上一節我們了解了的配置方法，配置完成之后我們便可以用來驅動瀏覽器來做相應網頁的抓取。上一篇文章網絡爬蟲實戰請求庫安裝下一篇文章網絡爬蟲實戰解析庫的安裝上一篇文章：Python3網絡爬蟲實戰---1、請求庫安裝：Requests、Selenium、ChromeDriver下一篇文章：Python3網絡爬蟲實戰--...

Cristalven 2019-07-31 10:33 評論0 收藏0
Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容

摘要：，集搜客開源代碼下載源開源網絡爬蟲源，文檔修改歷史，增補文字說明，增加第五章源代碼下載源，并更換源的網址 showImg(https://segmentfault.com/img/bVvMn3); 1，引言在Python網絡爬蟲內容提取器一文我們詳細講解了核心部件：可插拔的內容提取器類gsExtractor。本文記錄了確定gsExtractor的技術路線過程中所做的編程實驗。這是第二...

ymyang 2019-07-25 10:26 評論0 收藏0
爬蟲框架WebMagic源碼分析之Selenium

摘要：有一個模塊其中實現了一個。但是感覺靈活性不大。接口如下它會獲得一個實例，你可以在里面進行任意的操作。本部分到此結束。 webmagic有一個selenium模塊,其中實現了一個SeleniumDownloader。但是感覺靈活性不大。所以我就自己參考實現了一個。首先是WebDriverPool用來管理WebDriver池： import java.util.ArrayList; im...

MarvinZhang 2019-08-14 17:57 評論0 收藏0
在headless模式下運行selenium

摘要：而在不久前宣布支持模式而后跟隨的新聞再次勾起我無盡的回憶。那么我們就來談談在和瀏覽器不原生支持模式下如何使用來實現模式進行動態數據的抓取。比較常見的例子在中進行轉發。下面我們進行測試發現其可以正常的運行。原文地址: http://52sox.com/python-use-h... 在Python中進行瀏覽器測試時,一般我們會選擇selenium這樣的庫來簡化我們工作量。而有些時候,為...

MoAir 2019-07-25 11:45 評論0 收藏0
Python網頁信息采集：使用PhantomJS采集淘寶天貓商品內容

摘要：，引言最近一直在看爬蟲框架，并嘗試使用框架寫一個可以實現網頁信息采集的簡單的小程序。本文主要介紹如何使用結合采集天貓商品內容，文中自定義了一個，用來采集需要加載的動態網頁內容。 showImg(https://segmentfault.com/img/bVyMnP); 1，引言最近一直在看Scrapy 爬蟲框架，并嘗試使用Scrapy框架寫一個可以實現網頁信息采集的簡單的小程序。嘗試...

z2xy 2019-07-25 10:35 評論0 收藏0