摘要:學(xué)習(xí)網(wǎng)站麥子學(xué)院網(wǎng)絡(luò)爬蟲解析代碼爬蟲名是搜索的域名范圍,也就是爬蟲的約束區(qū)域,規(guī)定爬蟲只爬取這個(gè)域名下的網(wǎng)頁。要爬取的網(wǎng)站解析的方法,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對象作為唯一參數(shù),負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)解析為,跟蹤更多的。
學(xué)習(xí)網(wǎng)站:
麥子學(xué)院scrapy
python網(wǎng)絡(luò)爬蟲
解析代碼:
import scrapy from tutorial.items import DmItem class DmozSpider(scrapy.Spider): name = "dm" #爬蟲名 allowed_domains = ["dmoz.org"]#allow_domains是搜索的域名范圍,也就是爬蟲的約束區(qū)域,規(guī)定爬蟲只爬取這個(gè)域名下的網(wǎng)頁。 start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ]#要爬取的網(wǎng)站 #parse解析的方法, #調(diào)用的時(shí)候傳入從每一個(gè)URL傳回的Response對象作為唯一參數(shù), #負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)(解析為item),跟蹤更多的URL。 def parse(self, response): #爬取網(wǎng)頁所有的ul標(biāo)簽下li標(biāo)簽 for li in response.xpath("http://*[@id="bd-cross"]/fieldset[3]/ul/li"): #項(xiàng)目=載入DmItem()類 item = DmItem() #項(xiàng)目["標(biāo)題"]=li標(biāo)簽里面的a標(biāo)簽的文子() item["title"] = li.xpath("a/text()").extract() #連接=li標(biāo)簽里a標(biāo)簽的href屬性 item["link"] = li.xpath("a/@href").extract() #描述=li標(biāo)簽里的text() item["desc"] = li.xpath("text()").extract() yield item#返回項(xiàng)目
備注:簡單的羅列一下有用的xpath路徑表達(dá)式
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37610.html
摘要:下載器下載器負(fù)責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個(gè)該頁面的,并將其通過下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并學(xué)習(xí)sc...
摘要:前言新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...
摘要:是最有名的爬蟲框架之一,可以很方便的進(jìn)行抓取,并且提供了很強(qiáng)的定制型,這里記錄簡單學(xué)習(xí)的過程和在實(shí)際應(yīng)用中會(huì)遇到的一些常見問題一安裝在安裝之前有一些依賴需要安裝,否則可能會(huì)安裝失敗,的選擇器依賴于,還有網(wǎng)絡(luò)引擎,下面是下安裝的過程下安裝安裝 scrapy是python最有名的爬蟲框架之一,可以很方便的進(jìn)行web抓取,并且提供了很強(qiáng)的定制型,這里記錄簡單學(xué)習(xí)的過程和在實(shí)際應(yīng)用中會(huì)遇到的一...
摘要:解析的方法,每個(gè)初始完成下載后將被調(diào)用,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對象來作為唯一參數(shù),主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁數(shù)據(jù),提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛。 框架的力量,用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常...
閱讀 820·2023-04-25 19:49
閱讀 3755·2021-09-30 09:47
閱讀 2740·2021-09-13 10:21
閱讀 2679·2021-08-24 10:04
閱讀 3167·2019-08-30 15:55
閱讀 2295·2019-08-30 15:55
閱讀 2398·2019-08-30 15:54
閱讀 3470·2019-08-30 13:53