知乎書籍排行網站——建站始末

stormzhang 發布于2019-08-01 18:30 / 1693人閱讀

摘要：一時心血來潮，于是當時想，如果拿來分析知乎這個網站，會有什么效果呢。知乎并沒有公開，只能采取爬蟲手段。如此，大概率會觸發知乎反爬蟲系統，所以采取以下方法來回避這個問題代理池。但是，很多情況下知乎還是能通過你的請求得到你的真實。。

網站地址books.bigfacewo.com
最近工作去了，感覺人也變懶了，一直想寫一些關于這個網站東西分享出來。慢慢寫吧。
前情提要：對于大神來說，這個網站使用的技術都是小兒科啦。不過，我想還是有朋友有這個需求的。這篇文章的內容不一定都是準確的，用的方法也不是最好的，不過我始終相信一句話——兼聽者明，偏聽則暗。所以看這篇文章的朋友，希望你能帶入自己的思考，同時更希望能夠帶給你一些東西。

好了，廢話不多說了。

網站是參考了一個外文網站。一時心血來潮，于是當時想，如果拿來分析知乎這個網站，會有什么效果呢。
有一些不一樣的地方是stackoverflow這個網站開放了api，所以拿到數據是很方便的。知乎并沒有公開api，只能采取爬蟲手段。
所以，很自然地，流程大致分為四個步驟：

數據獲取

數據分析

建站數據準備

建站

一、數據獲取

寫爬蟲要考慮的一些問題：

可靠性。當遇到程序錯誤或者一些不可抗力因素如斷電等造成的程序停止，如何從停止的時刻開始繼續爬取；或者說得設計一個狀態，該狀態保存了已經抓取數據的相關信息，下次抓取任務會忽略已經抓取的信息（這不是廢話嘛，哈哈），還有一些需要考慮的問題：

模擬登陸（后續填坑）

速度。假設一秒鐘爬取1條數據，那么600條一個小時，6000000條就需要10000個小時，大概要一年多。這是不能接受的一個速度，單機多線程抓取10條每秒還是可以接受的。如此，大概率會觸發知乎反爬蟲系統，所以采取以下方法來回避這個問題：

代理池。可以找一些免費的代理網站，如西刺，爬一些ip下來用，當然這需要設計一個系統或服務，該服務不斷地去獲取代理ip，然后驗證是否可用，再存起來備用。當遇到爬蟲驗證頁面時應該將該ip移除或者標記為暫時不可用。但是，很多情況下知乎還是能通過你的請求得到你的真實ip。

Cookie。

重新撥號。這個簡單而且非常可行，如果是單條寬帶，重新撥號會造成短時間的爬取停止。

優先級。其實，并不是每條數據都需要的或者說包含了有效信息，如果對要抓取的數據有一定了解，那么我們可以提取一些特征，優先抓取這部分數據。事實上我也這么做的，這樣能夠最大限度地節省時間。

當我接觸Python之后，就決定用它來寫爬蟲了，因為實在是太方便了！

二、數據分析

從數據中提取書籍信息，有兩種辦法：

提取書名號中的內容。

先建立書籍信息庫，再做匹配。

第二種辦法可以做到更精確，但是建立書籍數據庫也頗費時間。所以采用了第一種方法。實際上知乎上只要提到書籍幾乎都會帶上書名號，或者有一些政治隱喻不能提的，當然我們也不需要這類書的信息。

同一本書在每個回答中最多只能出現一次，將數據匯總后，得到“標簽：書名：提到次數”的這樣的一個文本。

三、建站數據準備

按照我的需求，應該建立以下三張表：

標簽表：存放該書所對應標簽，多對多的關系。

書籍表：存放書籍的信息，以及該書的提到總次數。

標簽-書籍對應關系表：存放該標簽下該書籍被提到的次數信息。

將步驟二得到的文本，導入到數據庫中去。

為了得到書籍的詳細信息，此時還需要將書名放到一些書籍網站，如我去了亞馬遜進行搜索，然后將得到的信息寫到數據庫中去，原理同步驟一。當然，這里也引入了一些誤差，由于是模糊匹配，導致一些書籍的信息錯誤（后面人工審核了一部分數據）。

到此，建站數據準備好了。

四、建站

建站就比較簡單了，后臺用Restful風格把接口寫好，前端就可以使用了。
使用Vue構建了一版單頁應用，但是搜索引擎不能抓取，于是又做了一版ssr的，使用了Nuxt.js。

網站差不多4天就寫好了，大部分時間都花在了步驟一和步驟二上了。所以，如果你也想做一個類似網站，不妨先從寫爬蟲開始。

還想做的事情：

情感分析。一本書被提到，其評價有可能是正面的也有可能是負面的，希望加入一個情感分析的功能，然后加權到最終結果。

提高書籍信息準確度。本來可以申請亞馬遜或者淘寶之類的網站的api，通過api可以獲取商品數據，可以利用來查詢書籍信息，但是申請很麻煩，最后還是采用了爬蟲+人工的方式。

移動端優化。目前網站的排版在移動端表現不是太好。

總結

綜上，寫的比較簡略，當然，不具備直接可操作性，因為不涉及到具體的代碼。但是，我想表達的是，整個流程就在這里，你可以用你熟悉的編程語言或者工具來實現它，就算不會Python，你仍然可以利用Java、C#來寫爬蟲或者做分析；還有一個重要的原則是，盡量復用別人的東西，如python爬蟲相關的庫功能非常強大，直接拿來用就可以，同理，使用Java，你需要去調查該語言相關的庫，哪些能實現你的目的，然后去使用它吧。
另外，一些省略的內容，將后續補充。

云服務器 GPU云服務器始末免費書籍下載網站排行網站源碼網站空間排行

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/51777.html

知乎書籍排行網站——建站始末

摘要：一時心血來潮，于是當時想，如果拿來分析知乎這個網站，會有什么效果呢。知乎并沒有公開，只能采取爬蟲手段。如此，大概率會觸發知乎反爬蟲系統，所以采取以下方法來回避這個問題代理池。但是，很多情況下知乎還是能通過你的請求得到你的真實。。網站地址books.bigfacewo.com最近工作去了，感覺人也變懶了，一直想寫一些關于這個網站東西分享出來。慢慢寫吧。前情提要：對于大神來說，這個網站使...

Tony 2019-08-30 13:52 評論0 收藏0
知乎書籍排行網站——建站始末

摘要：一時心血來潮，于是當時想，如果拿來分析知乎這個網站，會有什么效果呢。知乎并沒有公開，只能采取爬蟲手段。如此，大概率會觸發知乎反爬蟲系統，所以采取以下方法來回避這個問題代理池。但是，很多情況下知乎還是能通過你的請求得到你的真實。。網站地址books.bigfacewo.com最近工作去了，感覺人也變懶了，一直想寫一些關于這個網站東西分享出來。慢慢寫吧。前情提要：對于大神來說，這個網站使...

feng409 2019-08-15 13:53 評論0 收藏0
知乎書籍排行網站——建站始末

摘要：一時心血來潮，于是當時想，如果拿來分析知乎這個網站，會有什么效果呢。知乎并沒有公開，只能采取爬蟲手段。如此，大概率會觸發知乎反爬蟲系統，所以采取以下方法來回避這個問題代理池。但是，很多情況下知乎還是能通過你的請求得到你的真實。。網站地址books.bigfacewo.com最近工作去了，感覺人也變懶了，一直想寫一些關于這個網站東西分享出來。慢慢寫吧。前情提要：對于大神來說，這個網站使...

sugarmo 2019-08-26 11:31 評論0 收藏0
知乎上書籍被提到次數排行

摘要：我們分析了大量知乎精華回答，將里面被提到的書籍提取出來，按照被提到次數做成了一個書籍推薦網站。網站內容對程序員較為友好。我們分析了大量知乎精華回答，將里面被提到的書籍提取出來，按照被提到次數做成了一個書籍推薦網站。被提到即是價值。網站內容對程序員較為友好。地址：http://books.bigfacewo.com

Little_XM 2019-08-15 12:03 評論0 收藏0
知乎上書籍被提到次數排行

摘要：我們分析了大量知乎精華回答，將里面被提到的書籍提取出來，按照被提到次數做成了一個書籍推薦網站。網站內容對程序員較為友好。我們分析了大量知乎精華回答，將里面被提到的書籍提取出來，按照被提到次數做成了一個書籍推薦網站。被提到即是價值。網站內容對程序員較為友好。地址：http://books.bigfacewo.com

dongfangyiyu 2019-08-21 16:54 評論0 收藏0