摘要:最近一個項目需要做。確定要獲取的字段在里面,定義好要獲取的字段,例如我需要獲取的網站標題和首頁內容。這里是為了測試匹配數據的,需要掌握的知識點為獲取辦法和選擇器獲取辦法。
最近一個項目需要做spider。就開始找資料,分析幾個工具后,得到最成熟穩定的應該首推Scrapy。 第一次使用Scrapy,寫篇文章記錄一下。
Scrapy的安裝我就不復述了。網上一大把的資料。安裝好環境后,就開始以下工作了。
大概操作步驟如下:
創建項目
創建spider
確定要獲取的字段
確定正則匹配的字段
保存入庫
創建項目scrapy startproject projectName【項目名】 cd projectName
在命令行中進行以上操作。
創建spider事先把要獲取的網址準備好 eg: https://segmentfault.com
scrapy genspider spiderName "https://segmentfault.com"
生成成功后,會在spider目錄下生成一個名叫:spiderName.py文件。獲取規則就需要書寫在這里面。
確定要獲取的字段在item.py里面,定義好要獲取的字段,例如我需要獲取sf.gg的網站標題和首頁內容。就需要定義兩個字段,title,content。想獲取的信息越細越好
class articleItem(Scrapy.Item): # 獲取網站標題 title = Scrapy.Field() # 獲取網站內容 content = Scrpay.Field()確定正則匹配字段內容
要注冊獲取數據的內容是本身在HTML里面的,還是ajax獲取渲染的,如果是ajax渲染的數據,使用傳統的獲取不到數據。
這里是為了測試匹配數據的,需要掌握的知識點為xpath獲取辦法和css選擇器獲取辦法。其中css類似jquery的選擇器。
scrapy shell "https://segmentfault.com"確定入庫
保存形式有多種,json或數據庫
最好的學習資料,永遠都是代碼+說明文檔:
http://scrapy-chs.readthedocs...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/44338.html
摘要:下載器下載器負責獲取頁面數據并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個該頁面的,并將其通過下載中間件返回方向發送給引擎。 作者:xiaoyu微信公眾號:Python數據科學知乎:Python數據分析師 在爬蟲的路上,學習scrapy是一個必不可少的環節。也許有好多朋友此時此刻也正在接觸并學習sc...
摘要:使用中間件本次的測試站點依舊使用,通過訪問可以獲取當前請求的地址。中間件默認是開啟的,可以查看其源碼重點為方法。修改代理的方式非常簡單,只需要在請求創建的時候,增加參數即可。接下來將可用的代理保存到文件中。同步修改文件中的代碼。 ...
摘要:爬蟲是我接觸計算機編程的入門。練練練本文推薦的資源就是以項目練習帶動爬蟲學習,囊括了大部分爬蟲工程師要求的知識點。拓展閱讀一文了解爬蟲與反爬蟲最后,請注意,爬蟲的工作機會相對較少。 爬蟲是我接觸計算機編程的入門。哥當年寫第一行代碼的時候別提有多痛苦。 本文旨在用一篇文章說透爬蟲如何自學可以達到找工作的要求。 爬蟲的學習就是跟著實際項目去學,每個項目會涉及到不同的知識點,項目做多了,自然...
閱讀 1002·2021-09-30 09:58
閱讀 2829·2021-09-09 11:55
閱讀 2001·2021-09-01 11:41
閱讀 991·2019-08-30 15:55
閱讀 3350·2019-08-30 12:50
閱讀 3495·2019-08-29 18:37
閱讀 3295·2019-08-29 16:37
閱讀 2011·2019-08-29 13:00