国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

小白也可以看會的破解抖音字體反爬

Zoom / 2736人閱讀

摘要:不過,字體反爬也沒有用,畢竟我們會破哈哈。抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。下載完之后我們可以用的一個工具包來查看字體映射。

現(xiàn)在的網(wǎng)站,處處都是反爬,我們這些爬蟲的經(jīng)常需要和他們斗智斗勇,就看誰更厲害。這不,就連字體也弄成了反爬,而且還不止一個網(wǎng)站,常見的就有貓眼和汽車之家。不過,字體反爬也沒有用,畢竟我們會破!哈哈。

抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。

分享主頁可以這樣獲得:

1). 點擊迪麗熱巴個人主頁

2).點擊左上角

3).再點擊左上角分享以鏈接方式復制

做完之后你就可以獲得這樣一條鏈接:http://v.douyin.com/NT5Nck/

在瀏覽器打開可以看到:

鏈接編程了這樣:https://www.iesdouyin.com/sha...

根據(jù)經(jīng)驗很容易知道前面的參數(shù)就是用戶的 id 號,后面的就是時間戳,可以去掉的。

有了這個頁面之后怎么將個人主頁的名稱、粉絲、點贊量等爬下來呢?接下來就是教你這個,請繼續(xù)往下看!

1. 分析破解反爬字體

打開開發(fā)者調(diào)試工具,很容易就可以看到數(shù)據(jù)所在的請求的鏈接

點擊我們需要獲取的粉絲數(shù),你可以看到:

可以看到,字體都變成了正方形,很明顯這個做了反爬。那我們再看看請求返回來的 html 信息。

可以看到一堆編碼,而且都是數(shù)字變成了這樣,所有抖音將這些數(shù)字的數(shù)據(jù)都做了字體進行映射,用了他們自己的字體,那我們可以看看開發(fā)者工具的?network?查看他所用的字體,一般都是?wolf?或者?ttf?結(jié)尾的,可以看到:

https://s3.bytecdn.cn/ies/res..._falcon/static/font/iconfont_9eb9a50.woff

在瀏覽器輸入上面地址就可以下載該字體了。

下載完之后我們可以用 Python 的一個工具包 fontTools 來查看字體映射。

如果你沒有這個包的話,可在命令行輸入下面代碼進行下載工具包:

pip?install?fontTools

使用 fontTools 將字體文件轉(zhuǎn)為 XML 文件,下面為代碼:

轉(zhuǎn)換之后查看文件,你就可以看到之間的映射了,如下:

code?為我們在請求中顯示的編碼,name為映射,到我們需要找的是數(shù)字,num_ 代表的又是哪些數(shù)字呢?,如果你再找找,你會發(fā)現(xiàn)這個:

是不是感覺已經(jīng)找到了,恭喜你,你被坑了,這個并不是,如果你第一次遇到的話,估計都會被它坑一次,這個并不是剛才的什么數(shù)字映射,只是一些 id 名字罷了。

這時就需要我們另借助一個字體軟件了:FontCreator, 軟件百度官網(wǎng)下載安裝即可。

用這個軟件打開字體,可以看到新大陸:

這個就是我們需要找的映射,配合上面在 XML 文件中找的映射,一起用,這個就破解了。

2.代碼實現(xiàn)

用 Python 代碼只需要把它們之間的映射搞清楚就行了,所以我們可以使用字典來保存這些數(shù)據(jù)。

這個就是在軟件上看到的映射關系,再來弄弄在 XML 中的編碼對應關系

通過一行一行地讀取 XML 文件的內(nèi)容,找出映射并存儲在相應的字典中,這就可以了,大功告成。

3.其他數(shù)據(jù)的獲取

我打算爬的是抖音的用戶數(shù)據(jù),先找了 1000 個抖音大號來爬取,接著會通過他們的粉絲列表再來爬取別的用戶,這樣就差不多能夠把抖音的大多數(shù)用戶獲取了,具體怎樣爬取粉絲列表,下篇文章告訴你!期待的就點個「好看」支持下?

下面是 1000 個抖音大號的部分爬取代碼:

上面的就是我需要存儲的內(nèi)容。

由于篇幅問題,其他的就不放出來了,想要源碼的關注公眾號進行獲取

「以下內(nèi)容,本人僅供學習交流,切勿用于商業(yè)用途」

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/43053.html

相關文章

  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現(xiàn)(01)webdriv

    摘要:且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現(xiàn)過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數(shù)的爬蟲實際問題。 前言: 一個月前,博主在學過python(一年前)、會一點網(wǎng)絡(能按F12)的情況下,憑著熱血和興趣,開始了pyth...

    Half 評論0 收藏0
  • Web 端反爬蟲技術方案

    對于內(nèi)容型的公司,數(shù)據(jù)的安全性很重要。對于內(nèi)容公司來說,數(shù)據(jù)的重要性不言而喻。比如你一個做在線教育的平臺,題目的數(shù)據(jù)很重要吧,但是被別人通過爬蟲技術全部爬走了?如果核心競爭力都被拿走了,那就是涼涼。再比說有個獨立開發(fā)者想抄襲你的產(chǎn)品,通過抓包和爬蟲手段將你核心的數(shù)據(jù)拿走,然后短期內(nèi)做個網(wǎng)站和 App,短期內(nèi)成為你的勁敵。 爬蟲手段 目前爬蟲技術都是從渲染好的 html 頁面直接找到感興趣的節(jié)點,...

    MudOnTire 評論0 收藏0
  • 大前端時代安全性如何做

    摘要:對于內(nèi)容型的公司,數(shù)據(jù)的安全性很重要。背景目前通過中的網(wǎng)頁分析后,我們的數(shù)據(jù)安全性做的較差,有以下幾個點存在問題網(wǎng)站的數(shù)據(jù)通過最早期的前后端分離來實現(xiàn)。比如當前的日期為,那么線性變換的為,為。 之前在上家公司的時候做過一些爬蟲的工作,也幫助爬蟲工程師解決過一些問題。然后我寫過一些文章發(fā)布到網(wǎng)上,之后有一些人就找我做一些爬蟲的外包,內(nèi)容大概是爬取小紅書的用戶數(shù)據(jù)和商品數(shù)據(jù),但是我沒做。我...

    andot 評論0 收藏0
  • 知乎最新版模擬登陸詳解,小白能懂

    摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內(nèi)容僅交流學習,請勿用于非法用途 如果你現(xiàn)在想模擬登陸知乎,會發(fā)現(xiàn) fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...

    buildupchao 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<