scrapy簡單學(xué)習(xí)2—解析簡單的spider代碼

luck 發(fā)布于2019-07-24 18:08 / 3166人閱讀

摘要：學(xué)習(xí)網(wǎng)站麥子學(xué)院網(wǎng)絡(luò)爬蟲解析代碼爬蟲名是搜索的域名范圍，也就是爬蟲的約束區(qū)域，規(guī)定爬蟲只爬取這個(gè)域名下的網(wǎng)頁。要爬取的網(wǎng)站解析的方法，調(diào)用的時(shí)候傳入從每一個(gè)傳回的對象作為唯一參數(shù)，負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)解析為，跟蹤更多的。

學(xué)習(xí)網(wǎng)站:
麥子學(xué)院scrapy
python網(wǎng)絡(luò)爬蟲
解析代碼：

import scrapy

from tutorial.items import DmItem

class DmozSpider(scrapy.Spider):
    name = "dm" #爬蟲名
    allowed_domains = ["dmoz.org"]#allow_domains是搜索的域名范圍，也就是爬蟲的約束區(qū)域，規(guī)定爬蟲只爬取這個(gè)域名下的網(wǎng)頁。
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]#要爬取的網(wǎng)站
    
    
        #parse解析的方法，
        #調(diào)用的時(shí)候傳入從每一個(gè)URL傳回的Response對象作為唯一參數(shù)，
        #負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)(解析為item)，跟蹤更多的URL。
    def parse(self, response):
        
        #爬取網(wǎng)頁所有的ul標(biāo)簽下li標(biāo)簽
        for li in response.xpath("http://*[@id="bd-cross"]/fieldset[3]/ul/li"):
            #項(xiàng)目=載入DmItem()類
            item = DmItem()
            #項(xiàng)目["標(biāo)題"]=li標(biāo)簽里面的a標(biāo)簽的文子（）
            item["title"] = li.xpath("a/text()").extract()
            #連接=li標(biāo)簽里a標(biāo)簽的href屬性
            item["link"] = li.xpath("a/@href").extract()
            #描述=li標(biāo)簽里的text()
            item["desc"] = li.xpath("text()").extract()
            
            yield item#返回項(xiàng)目

備注：簡單的羅列一下有用的xpath路徑表達(dá)式