摘要:介紹是一個(gè)用于應(yīng)用程序測(cè)試的工具,測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括,,,,,等,它在的領(lǐng)域里的引用能使初學(xué)者大大的省去解析網(wǎng)頁中代加密的一些麻煩。
Selenium 是一個(gè)用于Web應(yīng)用程序測(cè)試的工具,Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣。
支持的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera,Edge等,它在python的領(lǐng)域里的引用能使初學(xué)者大大的省去解析網(wǎng)頁中代加密的一些麻煩。
*特別適合小白練手
1.首先要下載一個(gè)python的環(huán)境,最新的python環(huán)境里有繼承好的pip工具包(這塊知識(shí)見python官網(wǎng)操作)
2.下載瀏覽器的驅(qū)動(dòng)(我這邊以谷歌瀏覽器,你們也可以下載其他的)
打開https://npm.taobao.org/mirrors/chromedriver鏈接(這個(gè)是谷歌瀏覽器的驅(qū)動(dòng)),先找到自身瀏覽器的版本進(jìn)行下載,找自身瀏覽器版本方法見下圖1,圖2
圖1
圖2
我這里的是93.0.4577.63接著在驅(qū)動(dòng)下載頁面下載自己的版本的驅(qū)動(dòng),(如果沒有自己的版本就找這個(gè)版本之前的一個(gè)) 見下圖3
?圖3
下載好后把解壓好的包安裝在自己的python環(huán)境下。
找python環(huán)境目錄的方法:1.打開python--------右擊----選擇運(yùn)行? 圖4 做記號(hào)的就是我的路徑
?圖4
把下好的復(fù)制到相應(yīng)的路徑下就可以了如圖5
圖5
工具:PyCharm 2021.2
python編譯環(huán)境:python3.8
首先導(dǎo)入需要的依賴包 在python終端中打入
pip install selenium
解析網(wǎng)頁:
首先打開網(wǎng)址https://www.endata.com.cn/BoxOffice/BO/Year/index.html? 按F12打開代碼解釋器
進(jìn)行一個(gè)解析,我們測(cè)試代碼是否能自動(dòng)的打開瀏覽器
from selenium.webdriver import Chromeweb = Chrome() web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")
經(jīng)過測(cè)試是能打開需要的網(wǎng)址的,接著我們要爬的是每一年度第一的觀影榜單,我們利用xpath進(jìn)行一個(gè)定位。
sel_el = web.find_element_by_xpath("http://*[@id="OptionDate"]")#定位一個(gè)下拉列表
xpath不會(huì)定位的見下圖
?定位到的位置
?我們觀察到這里有一個(gè)下拉列表,我們需要對(duì)下拉列表進(jìn)行一個(gè)封裝然后根據(jù)索引(這里直接根據(jù)options)進(jìn)行一個(gè)遍歷查找(這塊涉及到前端知識(shí)點(diǎn)下拉列表)
sel = Select(sel_el) for i in range(len(sel.options)): sel.select_by_index(i)
?最后找到你要爬取的內(nèi)容,我這爬取的是電影名稱和票房
table = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[2]/a/p").textpiaofang = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[4]").text
把爬取的內(nèi)容保存到當(dāng)前目錄文件下,最后一部進(jìn)行代碼段的整合
整合代碼段:
import timefrom selenium.webdriver import Chromefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.select import Selectweb =Chrome()web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")with open("data.csv", "w", encoding="utf-8") as f: #打開文件,進(jìn)行寫入 sel_el = web.find_element_by_xpath("http://*[@id="OptionDate"]")#定位一個(gè)下拉列表#對(duì)元素進(jìn)行包裝 sel = Select(sel_el) for i in range(len(sel.options)): #前端的下拉列表的 sel.select_by_index(i) time.sleep(2) #進(jìn)行一個(gè)2s的休眠 table = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[2]/a/p").text #定位要找的東西位置 piaofang = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[4]").text nianfen = web.find_element_by_xpath("http://*[@id="OptionDate"]/option[1]").text f.write(table) f.write("/r") f.write(piaofang) f.write("/r/n") f.close()web.close()print("爬取完畢")
安裝驅(qū)動(dòng)有不明白的地方可以提出來哦,讓我們一起努力一起學(xué)習(xí),有那寫的不對(duì)的還請(qǐng)各位大佬指正,感覺寫的還行的,給個(gè)小贊,小編也有寫下去的動(dòng)力
??????
???????
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/119073.html
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:在這之前,還是有必要對(duì)一些概念超輕量級(jí)反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個(gè)爬取多頁面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個(gè)可以下載多頁面的爬蟲,如何將相對(duì)URL轉(zhuǎn)為絕對(duì)URL,如何限速,...
摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐。爬蟲腳本通常會(huì)很頻繁的進(jìn)行網(wǎng)絡(luò)請(qǐng)求,比如要爬取豆瓣排行榜的電影,就會(huì)連續(xù)發(fā)送個(gè)網(wǎng)絡(luò)請(qǐng)求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐...
摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐。爬蟲腳本通常會(huì)很頻繁的進(jìn)行網(wǎng)絡(luò)請(qǐng)求,比如要爬取豆瓣排行榜的電影,就會(huì)連續(xù)發(fā)送個(gè)網(wǎng)絡(luò)請(qǐng)求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
閱讀 3462·2021-11-25 09:43
閱讀 1062·2021-11-15 11:36
閱讀 3313·2021-11-11 16:54
閱讀 3974·2021-09-27 13:35
閱讀 4364·2021-09-10 11:23
閱讀 5675·2021-09-07 10:22
閱讀 3032·2021-09-04 16:40
閱讀 769·2021-08-03 14:03