python基礎爬蟲的框架以及詳細的運行流程

Scliang 發布于2019-07-31 09:58 / 1258人閱讀

摘要：互聯網界對于網絡爬蟲也建立了一定的道德規范協議來約束。基礎爬蟲的框架以及詳細的運行流程基礎爬蟲框架主要包括五大模塊，分別是爬蟲調度器管理器下載器解析器數據存儲器。

網絡爬蟲是什么？

網絡爬蟲就是：請求網站并提取數據的自動化程序

網絡爬蟲能做什么？

網絡爬蟲被廣泛用于互聯網搜索引擎或其他類似網站，可以自動采集所有其能夠訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。

網絡爬蟲還被用于爬取各個網站的數據，進行分析、預測
近幾年來，大量的企業和個人開始使用網絡爬蟲采集互聯網的公開數據，進行數據分析，進一步達到商業目的。

利用網絡爬蟲能從網上爬取什么數據？

可以好不吹噓的說，平時從瀏覽器瀏覽的所有數據都能被爬取下來。

網絡爬蟲是否合法？

上面說到了爬蟲可以爬取任何數據，那么，爬取數據這種行為是否合法？
目前關于爬取數據的法律還在建立和完善中，如果爬取的數據屬于個人使用或者科研范疇，基本不存在什么問題；一旦要用于商業用途就得注意了，有可能會違法。互聯網界對于網絡爬蟲也建立了一定的道德規范（Robots協議）來約束。
這里具體看下Robots協議
Robots協議規定各個搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，Robots協議雖然沒有被寫入法律，但是每一個爬蟲都應該遵守這項協議。
下面是淘寶網的robots協議：

從圖中我們就可以發現淘寶網對百度的爬蟲引擎做出了規定，然而百度也會遵守這些規定，不信你可以試試從百度是找不到淘寶里的商品信息的。

python爬蟲的基本流程

Python爬蟲的基本流程非常簡單，主要可以分為三部分：（1）獲取網頁；（2）解析網頁（提取數據）；（3）存儲數據。

簡單的介紹下這三部分：

獲取網頁就是給一個網址發送請求，該網址會返回整個網頁的數據。類似于在瀏覽器中輸入網址并按回車鍵，然后可以看到網站的整個頁面。

解析網頁就是從整個網頁的數據中提取想要的數據。

存儲數據顧名思義就是把數據存儲下來，我們可以存儲在文本中，也可以存儲到數據庫中。

基礎爬蟲的框架以及詳細的運行流程

基礎爬蟲框架主要包括五大模塊，分別是爬蟲調度器、URL管理器、HTML下載器、HTML解析器、數據存儲器。這五大模塊之間的關系如下圖所示：

下來我們來分析這五大模塊之間的功能：

爬蟲調度器主要負責統籌其他四個模塊的協調工作。

URL管理器負責管理URL鏈接，維護已經爬取的URL集合和未爬取的URL集合，提供獲取新URL鏈接的接口。

HTML下載器用于從URL管理器中獲取未爬取的URL鏈接并下載HTML網頁。

HTML解析器用于從HTML下載器中獲取已經下載的HTML網頁，并從中解析出新的URL鏈接交給URL管理器，解析出有效數據交給數據存儲器。

數據存儲器用于將HTML解析器解析出來的數據通過文件或者數據庫的形式存儲起來。

詳細的運行流程如下圖所示：

GPU云服務器云服務器 python爬蟲流程 python爬蟲框架流程的python python爬蟲框架scrapy

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/43034.html

如何實現一個Python爬蟲框架

摘要：這篇文章的題目有點大，但這并不是說我自覺對爬蟲這塊有多大見解，我只不過是想將自己的一些經驗付諸于筆，對于如何寫一個爬蟲框架，我想一步一步地結合具體代碼來講述如何從零開始編寫一個自己的爬蟲框架年到如今，我花精力比較多的一個開源項目算是了，這是 showImg(https://segmentfault.com/img/remote/1460000018513379); 這篇文章的題目有點大...

feng409 2019-07-31 10:10 評論0 收藏0
史上最詳細Python學習路線-從入門到精通，只需90天

摘要：針對的初學者，從無到有的語言如何入門，主要包括了的簡介，如何下載，如何安裝，如何使用終端，等各種開發環境進行開發，中的語法和基本知識概念和邏輯，以及繼續深入學習的方法。 ...

gghyoo 2021-11-24 09:39 評論0 收藏0
MongoDB 4.0 Python3.7 穩定高效的評分制IP代理池APIserver

摘要：項目的主要運行部分，采集器驗證器打分檢測等功能實現的模塊。在中可以配置異步的并發量等來控制驗證器。調用有了穩定的高分代理數據，那么就可以掛起一個為我們的爬蟲保駕護航，這一部分可以單獨拿出來編寫，使用其他框架之類的都是不錯的選擇。 FooProxy 穩健高效的評分制 IP代理池 + API服務提供，可以自己插入采集器進行代理IP的爬取，支持 MongoDB 4.0 使用 Python3....

wangjuntytl 2019-06-26 17:50 評論0 收藏0
MongoDB 4.0 Python3.7 穩定高效的評分制IP代理池APIserver

摘要：項目的主要運行部分，采集器驗證器打分檢測等功能實現的模塊。在中可以配置異步的并發量等來控制驗證器。調用有了穩定的高分代理數據，那么就可以掛起一個為我們的爬蟲保駕護航，這一部分可以單獨拿出來編寫，使用其他框架之類的都是不錯的選擇。 FooProxy 穩健高效的評分制 IP代理池 + API服務提供，可以自己插入采集器進行代理IP的爬取，支持 MongoDB 4.0 使用 Python3....

AndroidTraveler 2019-07-30 18:05 評論0 收藏0