摘要:不過,字體反爬也沒有用,畢竟我們會破哈哈。抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。下載完之后我們可以用的一個工具包來查看字體映射。
現(xiàn)在的網(wǎng)站,處處都是反爬,我們這些爬蟲的經(jīng)常需要和他們斗智斗勇,就看誰更厲害。這不,就連字體也弄成了反爬,而且還不止一個網(wǎng)站,常見的就有貓眼和汽車之家。不過,字體反爬也沒有用,畢竟我們會破!哈哈。
抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。
分享主頁可以這樣獲得:
1). 點擊迪麗熱巴個人主頁
2).點擊左上角
3).再點擊左上角分享以鏈接方式復制
做完之后你就可以獲得這樣一條鏈接:http://v.douyin.com/NT5Nck/
在瀏覽器打開可以看到:
鏈接編程了這樣:https://www.iesdouyin.com/sha...
根據(jù)經(jīng)驗很容易知道前面的參數(shù)就是用戶的 id 號,后面的就是時間戳,可以去掉的。
有了這個頁面之后怎么將個人主頁的名稱、粉絲、點贊量等爬下來呢?接下來就是教你這個,請繼續(xù)往下看!
1. 分析破解反爬字體打開開發(fā)者調(diào)試工具,很容易就可以看到數(shù)據(jù)所在的請求的鏈接
點擊我們需要獲取的粉絲數(shù),你可以看到:
可以看到,字體都變成了正方形,很明顯這個做了反爬。那我們再看看請求返回來的 html 信息。
可以看到一堆編碼,而且都是數(shù)字變成了這樣,所有抖音將這些數(shù)字的數(shù)據(jù)都做了字體進行映射,用了他們自己的字體,那我們可以看看開發(fā)者工具的?network?查看他所用的字體,一般都是?wolf?或者?ttf?結(jié)尾的,可以看到:
https://s3.bytecdn.cn/ies/res..._falcon/static/font/iconfont_9eb9a50.woff
在瀏覽器輸入上面地址就可以下載該字體了。
下載完之后我們可以用 Python 的一個工具包 fontTools 來查看字體映射。
如果你沒有這個包的話,可在命令行輸入下面代碼進行下載工具包:
pip?install?fontTools
使用 fontTools 將字體文件轉(zhuǎn)為 XML 文件,下面為代碼:
轉(zhuǎn)換之后查看文件,你就可以看到之間的映射了,如下:
code?為我們在請求中顯示的編碼,name為映射,到我們需要找的是數(shù)字,num_ 代表的又是哪些數(shù)字呢?,如果你再找找,你會發(fā)現(xiàn)這個:
是不是感覺已經(jīng)找到了,恭喜你,你被坑了,這個并不是,如果你第一次遇到的話,估計都會被它坑一次,這個并不是剛才的什么數(shù)字映射,只是一些 id 名字罷了。
這時就需要我們另借助一個字體軟件了:FontCreator, 軟件百度官網(wǎng)下載安裝即可。
用這個軟件打開字體,可以看到新大陸:
這個就是我們需要找的映射,配合上面在 XML 文件中找的映射,一起用,這個就破解了。
2.代碼實現(xiàn)用 Python 代碼只需要把它們之間的映射搞清楚就行了,所以我們可以使用字典來保存這些數(shù)據(jù)。
這個就是在軟件上看到的映射關系,再來弄弄在 XML 中的編碼對應關系
通過一行一行地讀取 XML 文件的內(nèi)容,找出映射并存儲在相應的字典中,這就可以了,大功告成。
3.其他數(shù)據(jù)的獲取我打算爬的是抖音的用戶數(shù)據(jù),先找了 1000 個抖音大號來爬取,接著會通過他們的粉絲列表再來爬取別的用戶,這樣就差不多能夠把抖音的大多數(shù)用戶獲取了,具體怎樣爬取粉絲列表,下篇文章告訴你!期待的就點個「好看」支持下?
下面是 1000 個抖音大號的部分爬取代碼:
上面的就是我需要存儲的內(nèi)容。
由于篇幅問題,其他的就不放出來了,想要源碼的關注公眾號進行獲取
「以下內(nèi)容,本人僅供學習交流,切勿用于商業(yè)用途」
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/43053.html
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現(xiàn)過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數(shù)的爬蟲實際問題。 前言: 一個月前,博主在學過python(一年前)、會一點網(wǎng)絡(能按F12)的情況下,憑著熱血和興趣,開始了pyth...
對于內(nèi)容型的公司,數(shù)據(jù)的安全性很重要。對于內(nèi)容公司來說,數(shù)據(jù)的重要性不言而喻。比如你一個做在線教育的平臺,題目的數(shù)據(jù)很重要吧,但是被別人通過爬蟲技術全部爬走了?如果核心競爭力都被拿走了,那就是涼涼。再比說有個獨立開發(fā)者想抄襲你的產(chǎn)品,通過抓包和爬蟲手段將你核心的數(shù)據(jù)拿走,然后短期內(nèi)做個網(wǎng)站和 App,短期內(nèi)成為你的勁敵。 爬蟲手段 目前爬蟲技術都是從渲染好的 html 頁面直接找到感興趣的節(jié)點,...
摘要:對于內(nèi)容型的公司,數(shù)據(jù)的安全性很重要。背景目前通過中的網(wǎng)頁分析后,我們的數(shù)據(jù)安全性做的較差,有以下幾個點存在問題網(wǎng)站的數(shù)據(jù)通過最早期的前后端分離來實現(xiàn)。比如當前的日期為,那么線性變換的為,為。 之前在上家公司的時候做過一些爬蟲的工作,也幫助爬蟲工程師解決過一些問題。然后我寫過一些文章發(fā)布到網(wǎng)上,之后有一些人就找我做一些爬蟲的外包,內(nèi)容大概是爬取小紅書的用戶數(shù)據(jù)和商品數(shù)據(jù),但是我沒做。我...
摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內(nèi)容僅交流學習,請勿用于非法用途 如果你現(xiàn)在想模擬登陸知乎,會發(fā)現(xiàn) fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...
閱讀 2624·2021-11-12 10:36
閱讀 2262·2021-08-23 09:47
閱讀 1683·2019-08-30 15:44
閱讀 1405·2019-08-30 14:10
閱讀 2246·2019-08-29 16:52
閱讀 2339·2019-08-29 16:40
閱讀 1590·2019-08-29 16:17
閱讀 2412·2019-08-26 13:21