摘要:這里就可以看到我們需要找的參數(shù)了,但是這里已經生成了,我們可以直接查看右邊的調用棧經過多次查看,可以很容易就發(fā)現(xiàn)這個地方有點東西,立即下斷點這時我們可以先去掉斷點,然后刷看查看,獲取不斷點下一個斷點直到運行結束再滑動到下一頁即可。
今天繼續(xù)帶來破解拼多多的 anti_content 參數(shù)破解,代碼已經放在github上:https://github.com/SergioJune...(點擊原文閱讀直達)
如果對你有用的麻煩給個 star 支持下哈。
這個項目我也會持續(xù)更新,這兩周暫不更新,只發(fā)文章,可能我前兩周整天做這個,有點膩了,歇會。另外可以借這個文章復習下思路,你們也可以學習下思路,學了之后最好自己實踐一遍,這樣才會真正學到東西。
廢話不多說,開始正文。
1.尋找所需參數(shù)拼多多網址為:http://yangkeduo.com/
點擊搜索,然后開始滑動下一頁,你可以看到這個:
這里有三個參數(shù)需要找的,其他參數(shù)都可以看得出是什么,有些也是固定不變的。
先從第一個參數(shù)?list_id?開始,一般都會打開搜索,進行搜索這個參數(shù)
隨便一找,即可找到這里
這個是我們在第一次請求搜索頁返回的,也就是發(fā)送這個請求:
通過多次實驗,這個請求只需要帶上關鍵字參數(shù)即可請求成功,比如這樣:http://yangkeduo.com/search_r...
只是關鍵字需要解析一下即可,問題不大。
在這個頁面還給我們返回了?flip?這個參數(shù),所以我們可以使用正則來獲取這兩個參數(shù),剩下的就是?anti_content?了
我們可以試試再和上面那樣,試試通過搜索?anti_content,可以看到,也可以通過搜索看到,經過查找并多次斷點,可以找到這個為位置:
打上斷點,可以看到就是我們需要的數(shù)據(jù),但是如何找到加密的位置呢?請繼續(xù)往下看。
2.尋找加密位置如果你單純是想通過上面這種方式查找的話,估計會一整天都在那里按執(zhí)行下一行代碼,最后還有可能得不到自己想要的結果,今天告訴一個很簡單的方法,因為每次都是發(fā)一個請求,所以我們可以在開發(fā)者工具下打個 xhr 斷點,這樣在我們滑動請求的時候就可以抓到這個請求,并查看調用棧即可快速找到,通過這個方法,最多就只需要半個小時吧(夸大了不太好)。
打 xhr 斷點在這里打:
這里還可以根據(jù)請求的請求路徑進行斷點,我就不寫上了,我直接捕獲任何 xhr 斷點了,你可以自己嘗試下,當然,除了這個 xhr 斷點,還有很多斷點,比如事件監(jiān)聽等,這些在對反爬更加厲害的需要用到的時候就越多,所以,閑著沒事的話可以研究這些斷點,會了可以大大提高自己的工作效率,都是爬蟲必會的。
打上斷點之后,我們可以進行滑動,可以看到這里:
這里第一次捕獲到的是我們?yōu)g覽器的配置和我們活動的距離好像,這個可以直接忽略,進行下一個斷點即可。
這里就可以看到我們需要找的參數(shù)了,但是這里已經生成了,我們可以直接查看右邊的調用棧
經過多次查看,可以很容易就發(fā)現(xiàn)這個地方有點東西,立即下斷點
這時我們可以先去掉 xhr 斷點,然后刷看查看,獲取不斷點下一個斷點直到運行結束再滑動到下一頁即可。經過調試可以看到這個:
所以我們的 anti_content 參數(shù)就是從這里生成的,所以接下來就是繼續(xù)查看這個語句執(zhí)行的語句,再次經過多次調試,可以發(fā)現(xiàn)是從這里生成的:
ep("0xd2", "jLF%")?即是?anti_content?的生成語句,可以繼續(xù)在函數(shù)內部打上斷點即可查看內部生成過程。
3.代碼太多,只能利用execjs,或者使用接口因為這里的代碼太多,而且我又不太懂里面的加密過程,所以我才說這類加密通常都是只需要找到加密位置即可,接下來就是把所需要的加密 JS 代碼扣下來使用 python 的?pyexecjs?來運行即可,但是如果你懂它里面的加密方法,就可以直接使用 python 提供的對應的加密方法進行使用即可,這樣子就更容易得出結果,所以接下來需要學習的地方就是各種加密方法。
這里的加密方法我猜測是通過 deflate 加密方法,有興趣的可以自己查看。
這里扣代碼沒什么好說的,說下這里的坑吧。坑有兩個,
一個是需要使用到一個 cookie,不過固定即可,無需要獲取,這個 cookie 是下面這個:
使用到的地方為這里:
通過 split 切割就是獲取上面箭頭所指的 cookie,下面的函數(shù)就是進行賦值然后返回給一個對象,這里通過自己慢慢調試都是可以知道的。
另一個坑就是需要使用到我們的第一次的搜索請求,有兩個地方
到時調用函數(shù)傳參即可。其他的就沒有什么了,如果有請在留言區(qū)提問。
4.驗證我們可以使用 execjs 來執(zhí)行 JS,或者使用node來執(zhí)行然后提供給python 接口也是可行,看你個人,這里我直接使用 execjs 來執(zhí)行了。
如果你 運行之后出現(xiàn)編碼問題的話,可以看看這篇文章:https://sergiojune.com/2019/0...
可以獲取了,完畢。源碼放在了我的gihub,想要的可以點擊原文閱讀獲取,對你有用的話記得給個 star 哈。
最后一開始寫這個每周一爆的系列是因為,我看到現(xiàn)在網上的爬蟲文章質量普遍都很低,能應用到實際工作的并不多,所以想寫一些真正實用的文章,并且可以顯著提高大家爬蟲水平的。不知道大家想不想看這類文章,還是想看點基礎類的文章,因為每次都非常用心寫出來,原以為閱讀量可能會很好,但最后都是很慘淡,在想自己是不是陷入了自嗨式寫作,所以想大家給點建議,大家都想看哪類的文章。可以在下面投票下,謝謝。
本文僅用于交流學習,請勿用于非法用途,后果自負!首發(fā)鏈接:https://sergiojune.com/2019/0...
點個贊支持下?
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43446.html
摘要:這里就可以看到我們需要找的參數(shù)了,但是這里已經生成了,我們可以直接查看右邊的調用棧經過多次查看,可以很容易就發(fā)現(xiàn)這個地方有點東西,立即下斷點這時我們可以先去掉斷點,然后刷看查看,獲取不斷點下一個斷點直到運行結束再滑動到下一頁即可。 今天繼續(xù)帶來破解拼多多的 anti_content 參數(shù)破解,代碼已經放在github上:https://github.com/SergioJune...(...
摘要:當斷點被執(zhí)行到時,你就可以查看右邊的調用棧了,很容易就找到這個地方這個也是一個定時執(zhí)行,不過他只執(zhí)行一次,相當于定時炸彈。本文僅用于交流學習,請勿用于非法用途,后果自負首發(fā)地址請求網頁時,怎么給我返回了一段代碼 今天給大家?guī)淼氖且粋€論壇網站,牛仔俱樂部-努比亞社區(qū), 網址為:https://bbs.nubia.cn/ showImg(https://segmentfault.com/...
摘要:昨天看到一個大新聞拼多多在日凌晨出現(xiàn)漏洞,用戶可以領元無門檻優(yōu)惠券。拼多多本來就是家爭議頗大的公司,這次事件更是引發(fā)輿論熱議。有人估計全球為此花費的相關費用有數(shù)億美元。軟件發(fā)布測試版讓用戶使用,就屬于一種黑盒測試。 昨天看到一個大新聞: 拼多多在20日凌晨出現(xiàn)漏洞,用戶可以領100元無門檻優(yōu)惠券 。一夜之間,被黑產、羊毛黨和聞訊而來的吃瓜群眾薅了個底朝天,直到第二天上午9點才將優(yōu)惠券下...
摘要:一面技術面持續(xù)時間分鐘左右面試官看起來比較好,開場自我介紹,面試官了解一些基本情況。沒問技術,差不多分鐘。給出優(yōu)化方案只查找給定用戶的好友的好友即可。之后就是讓回去等通知了涼了貌似每個人都是三面。 直接上干貨了 時間:2018-08-12地點:浙大玉泉校區(qū)投遞崗位:平臺研發(fā)工程師應該是每個人都有三面(兩輪技術面,一輪HR),三面是平行的,順序不一。 一面:技術面持續(xù)時間:80分鐘左右面...
閱讀 1582·2021-09-02 15:41
閱讀 993·2021-09-02 15:11
閱讀 1274·2021-07-28 00:15
閱讀 2296·2019-08-30 15:55
閱讀 1137·2019-08-30 15:54
閱讀 1686·2019-08-30 15:54
閱讀 2967·2019-08-30 14:02
閱讀 2518·2019-08-29 16:57