Python爬蟲實戰（1）：爬取Drupal論壇帖子列表

李文鵬發布于2019-07-31 12:21 / 3053人閱讀

摘要：，引言在即時網絡爬蟲項目內容提取器的定義一文我們定義了一個通用的網絡爬蟲類，期望通過這個項目節省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇，是一個用做的論壇。

1，引言

在《Python即時網絡爬蟲項目: 內容提取器的定義》一文我們定義了一個通用的python網絡爬蟲類，期望通過這個項目節省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇，是一個用Drupal做的論壇。

2，技術要點

我們在多個文章都在說：節省程序員的時間。關鍵是省去編寫提取規則的時間，尤其是調試規則的正確性很花時間。在《1分鐘快速生成用于網頁內容提取的xslt》演示了怎樣快速生成提取規則，接下來我們再通過GooSeeker的api接口實時獲得提取規則，對網頁進行抓取。本示例主要有如下兩個技術要點：

通過GooSeeker API實時獲取用于頁面提取的xslt

使用GooSeeker提取器gsExtractor從網頁上一次提取多個字段內容。

3，python源代碼

# _*_coding:utf8_*_
# crawler_gooseeker_bbs.py
# 版本: V1.0

from urllib import request
from lxml import etree
from gooseeker import GsExtractor

# 訪問并讀取網頁內容
url = "http://www.gooseeker.com/cn/forum/7"
conn = request.urlopen(url)
doc = etree.HTML(conn.read())

bbsExtra = GsExtractor() 
bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" , "gooseeker_bbs_xslt")   # 設置xslt抓取規則，第一個參數是app key，請到會員中心申請
result = bbsExtra.extract(doc)   # 調用extract方法提取所需內容

print(str(result))

源代碼下載位置請看文章末尾的GitHub源。

4，抓取結果

運行上節的代碼，即可在控制臺打印出提取結果，是一個xml文件，如果加上換行縮進，內容如下圖：

5，相關文檔

1， Python即時網絡爬蟲項目: 內容提取器的定義

6，集搜客GooSeeker開源代碼下載源

1， GooSeeker開源Python網絡爬蟲GitHub源

7，文檔修改歷史

2016-06-06：V1.0

2016-06-06：V2.0

2016-06-06：V2.1，增加GitHub下載源

GPU云服務器云服務器 python爬蟲實戰帖子列表 python3爬蟲實戰論壇帖子html教程

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/45481.html

Python爬蟲實戰（2）：爬取京東商品列表

摘要：，源代碼爬取京東商品列表，以手機商品列表為例示例網址版本京東手機列表源代碼下載位置請看文章末尾的源。，抓取結果運行上面的代碼，就會爬取京東手機品類頁面的所有手機型號價格等信息，并保存到本地文件京東手機列表中。 showImg(https://segmentfault.com/img/bVxXHW); 1，引言在上一篇《python爬蟲實戰：爬取Drupal論壇帖子列表》，爬取了一個用...

shevy 2019-07-31 12:21 評論0 收藏0
Pyspider框架 —— Python爬蟲實戰之爬取 V2EX 網站帖子

摘要：背景一個國人編寫的強大的網絡爬蟲系統并帶有強大的。框架學習時走過的一些坑錯誤我所遇到的一些錯誤首先，本爬蟲目標使用框架爬取網站的帖子中的問題和內容，然后將爬取的數據保存在本地。修飾器，表示每天會執行一次，這樣就能抓到最新的帖子了。背景： PySpider：一個國人編寫的強大的網絡爬蟲系統并帶有強大的WebUI。采用Python語言編寫，分布式架構，支持多種數據庫后端，強大的WebUI...

codecraft 2019-07-31 10:51 評論0 收藏0
從零開始的Python爬蟲速成指南

摘要：內容如下是我們準備爬的初始頁這個是解析函數，如果不特別指明的話，抓回來的頁面會由這個函數進行解析。爬取多個頁面的原理相同，注意解析翻頁的地址設定終止條件指定好對應的頁面解析函數即可。后面的數字表示的是優先級。指明每兩個請求之間的間隔。序本文主要內容：以最短的時間寫一個最簡單的爬蟲，可以抓取論壇的帖子標題和帖子內容。本文受眾：沒寫過爬蟲的萌新。入門 0.準備工作需要準備的東西：...

gotham 2019-07-25 11:21 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
SegmentFault 技術周刊 Vol.30 - 學習 Python 來做一些神奇好玩的事情吧

摘要：學習筆記七數學形態學關注的是圖像中的形狀，它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換，簡稱是圖像局部特征提取的現代方法基于區域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制，并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言開始之前，我們先來看這樣一個提問： pyth...

lifesimple 2019-07-30 14:22 評論0 收藏0