python實現(xiàn)模擬登陸

archieyang 發(fā)布于2019-07-31 11:05 / 3323人閱讀

摘要：參考文章請點擊這里模擬登陸參考文章使用的，感覺沒有用起來方便。到此，所需要的都取得了，接下來就用把參數(shù)，，請求頭帶上，的加上查詢字符串，就可以成功模擬登陸了。

這次想試一試模擬登陸，以為應(yīng)該會很順利，但是遇到了各種問題，所以記錄總結(jié)一下。
參考文章：請點擊這里

模擬登陸segmentfault

參考文章使用的node.js，感覺沒有python用起來方便。

工具

python2.7

Chrome瀏覽器

requests

PyV8

lxml

思路

首先進入segmentfault的登陸頁面。
可以隨便輸入錯誤密碼點擊登陸，使用Chrome查看請求發(fā)到了哪個url。
另外看post的參數(shù)，這里有三個：remember, username 和 password。
然后可以順便按照Requests Headers把請求頭設(shè)置好(照抄到代碼里)。

requests庫的session對象能夠幫我們跨請求保持某些參數(shù)，也會在同一個session實例發(fā)出的所有請求之間保持cookies。

使用：

    # 創(chuàng)建一個session對象 
    session = requests.session()
    # 用session對象發(fā)出get請求
    response = session.get("https://segmentfault.com/user/login")
    # 獲取cookie
    cookies = response.cookies

設(shè)置了請求頭，cookie也拿到了，看看post的url

發(fā)現(xiàn)這段url后面是帶了查詢字符串的，每次發(fā)請求都會變化。
只有明白它是如何生成的才能取得我們要post的url，這里我卡了好久，去尋找答案，才找到了參考文章，這里面提供了思路獲取js中生成的token。

在login.min.js中查詢字符串 "_=" (Chrome f12下使用快捷鍵Crtl+F可以打開查詢窗口)，因為注意到url是https://segmentfault.com/api/user/login?_=[querystring]

發(fā)現(xiàn)要post的url是根url加上"?_="再加上a._.
可以想到a是一個對象，_是a這個對象的一個屬性。
可以找到：

于是發(fā)現(xiàn)了a._是window.SF.token

取得token

分析：回到login文件發(fā)現(xiàn)token是html中的script標簽中一個函數(shù)生成的，而html可以使用requests.get取得，然后可以通過python的re模塊用正則表達式提取出所需要的函數(shù)，這時還需要python中的PyV8模塊來執(zhí)行js函數(shù)。
執(zhí)行：分析html的DOM節(jié)點，發(fā)現(xiàn)函數(shù)的位置，使用xpath取得那個script標簽

    response = requests.get("https://segmentfault.com/user/login")
    sel = html.fromstring(response.text)
    s = sel.xpath("/html/body/script[8]/text()")[0]
    st = str(s.encode("utf-8"))

寫一個get_token函數(shù)取得token(這里要用到PyV8模塊實現(xiàn)python和JavaScript的交互)
這個DOM目前是這樣的:

我們需要的是第一個函數(shù)，在get_token()中用正則表達式提取出來。

def get_token(st):
    h = re.match("[sS]*(function (w) {[sS]+? })(window);", st).group()
    with PyV8.JSContext() as ctxt:
        ctxt.eval("""window={};
""" + h)
        vars = ctxt.locals
        token_var = vars.window.SF.token
        print token_var
    return token_var

到此，所需要的都取得了，接下來就用sesssion.post把參數(shù)，cookie，請求頭帶上，post的url加上查詢字符串，就可以成功模擬登陸了。

如有錯誤請指正~謝謝~