国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

scrapy簡單學(xué)習(xí)2—解析簡單的spider代碼

luck / 3166人閱讀

摘要:學(xué)習(xí)網(wǎng)站麥子學(xué)院網(wǎng)絡(luò)爬蟲解析代碼爬蟲名是搜索的域名范圍,也就是爬蟲的約束區(qū)域,規(guī)定爬蟲只爬取這個(gè)域名下的網(wǎng)頁。要爬取的網(wǎng)站解析的方法,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對象作為唯一參數(shù),負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)解析為,跟蹤更多的。

學(xué)習(xí)網(wǎng)站:
麥子學(xué)院scrapy
python網(wǎng)絡(luò)爬蟲
解析代碼:

import scrapy

from tutorial.items import DmItem

class DmozSpider(scrapy.Spider):
    name = "dm" #爬蟲名
    allowed_domains = ["dmoz.org"]#allow_domains是搜索的域名范圍,也就是爬蟲的約束區(qū)域,規(guī)定爬蟲只爬取這個(gè)域名下的網(wǎng)頁。
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]#要爬取的網(wǎng)站
    
    
        #parse解析的方法,
        #調(diào)用的時(shí)候傳入從每一個(gè)URL傳回的Response對象作為唯一參數(shù),
        #負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)(解析為item),跟蹤更多的URL。
    def parse(self, response):
        
        #爬取網(wǎng)頁所有的ul標(biāo)簽下li標(biāo)簽
        for li in response.xpath("http://*[@id="bd-cross"]/fieldset[3]/ul/li"):
            #項(xiàng)目=載入DmItem()類
            item = DmItem()
            #項(xiàng)目["標(biāo)題"]=li標(biāo)簽里面的a標(biāo)簽的文子()
            item["title"] = li.xpath("a/text()").extract()
            #連接=li標(biāo)簽里a標(biāo)簽的href屬性
            item["link"] = li.xpath("a/@href").extract()
            #描述=li標(biāo)簽里的text()
            item["desc"] = li.xpath("text()").extract()
            
            yield item#返回項(xiàng)目

備注:簡單的羅列一下有用的xpath路徑表達(dá)式

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37610.html

相關(guān)文章

  • Python爬蟲之Scrapy學(xué)習(xí)(基礎(chǔ)篇)

    摘要:下載器下載器負(fù)責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個(gè)該頁面的,并將其通過下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并學(xué)習(xí)sc...

    pkhope 評論0 收藏0
  • Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

    摘要:前言新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...

    WalkerXu 評論0 收藏0
  • scrapy學(xué)習(xí)筆記

    摘要:是最有名的爬蟲框架之一,可以很方便的進(jìn)行抓取,并且提供了很強(qiáng)的定制型,這里記錄簡單學(xué)習(xí)的過程和在實(shí)際應(yīng)用中會(huì)遇到的一些常見問題一安裝在安裝之前有一些依賴需要安裝,否則可能會(huì)安裝失敗,的選擇器依賴于,還有網(wǎng)絡(luò)引擎,下面是下安裝的過程下安裝安裝 scrapy是python最有名的爬蟲框架之一,可以很方便的進(jìn)行web抓取,并且提供了很強(qiáng)的定制型,這里記錄簡單學(xué)習(xí)的過程和在實(shí)際應(yīng)用中會(huì)遇到的一...

    luzhuqun 評論0 收藏0
  • Scrapy 框架入門簡介

    摘要:解析的方法,每個(gè)初始完成下載后將被調(diào)用,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對象來作為唯一參數(shù),主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁數(shù)據(jù),提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛。 框架的力量,用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常...

    Coding01 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<