scrapy爬蟲(chóng)使用Ghost.py動(dòng)態(tài)獲取cookie

xushaojieaaa 發(fā)布于2019-07-25 10:48 / 625人閱讀

前言

前段時(shí)間在用scrapy爬取某個(gè)網(wǎng)站時(shí)一直報(bào)521錯(cuò)誤，在seeting.py里設(shè)置HTTPERROR_ALLOWED_CODES= [521]后會(huì)發(fā)現(xiàn)返回的response是一段加密的js代碼。這段js代碼是動(dòng)態(tài)取得cookie信息的（但是只有一個(gè)value,故放棄了使用python庫(kù)去執(zhí)行js的打算）,最后利用瀏覽器打開(kāi)網(wǎng)頁(yè)將其cookie手動(dòng)添加到爬蟲(chóng)中會(huì)正常返回?cái)?shù)據(jù)，最后找到了Ghost.py這個(gè)庫(kù)去模擬瀏覽器打開(kāi)網(wǎng)站行為并動(dòng)態(tài)獲取cookie信息的辦法。

具體步驟

.安裝Ghost.py
sudo pip install Ghost.py==0.1.2

返回最新的cookie

from ghost import Ghost
from scrapy import log
import re
class Cookieutil:

    def __init__(self,url):
        log.msg("init cookieutil class ,will be get %s cookie information!" %url, log.INFO)
        gh = Ghost(download_images=False,display=False)
        gh.open(url)
        gh.open(url)
        gh.save_cookies("cookie.txt")
        gh.exit()
    def getCookie(self):
        cookie = ""
        with open("cookie.txt") as f:
            temp = f.readlines()
            for index in temp:
                cookie += self.parse_oneline(index).replace(""","")
        return cookie[:-1]
    def parse_oneline(self,src):
        oneline = ""
        if re.search("Set-Cookie",src):
            oneline = src.split(";")[0].split(":")[-1].strip()+";"
        return oneline

scrapy的spider定時(shí)生成和調(diào)用cookie信息

這里只貼上主要的代碼

    headers={
        "Cookie":"",
        "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2",
    }
    headers["Cookie"] = Cookieutil("http://www.dmoz.org.cn/").getCookie()
     def parse_page(self,response):
        if int(time.time())-self.begin_time>3600:
            print "get a new cookie arrgment"
            print self.headers["Cookie"]
            self.begin_time = int(time.time())
            try:
                self.headers["Cookie"] = Cookieutil("http://www.dmoz.org.cn/").getCookie()
            except:
                time.sleep(120)
                self.headers["Cookie"] = Cookieutil("http://www.dmoz.org.cn/").getCookie()

結(jié)語(yǔ)

不過(guò)有個(gè)比較糾結(jié)的問(wèn)題是Ghost.py需要依賴(lài)webkit,以致于在本地開(kāi)發(fā)中能夠正常運(yùn)行，但是放到服務(wù)器中直接報(bào)錯(cuò)（Exception: Ghost.py requires PySide or PyQt4）。
目前為止還沒(méi)找到好的解決辦法