摘要:最簡爬蟲環境準備最好使用另外需要兩個必要的庫一個封裝了服務的庫類似,使用非常方便開始實現第一個應用我們第一個應用實現的功能主要如下訪問一個頁面這里我們以糗事百科為例獲得頁面的內容進行簡單的處理,獲得我們需要的內容結果簡單分析利用獲得頁面
Step1 - 最簡爬蟲 環境準備
Python3.5 最好使用venv
另外需要兩個必要的庫:
requests : 一個封裝了HTTP服務的python庫
pyquery : 類似Jquery,使用非常方便
$ pip install requests $ pip install pyquery開始 實現第一個應用
我們第一個應用實現的功能主要如下:
訪問一個頁面,這里我們以 糗事百科(http://www.qiushibaike.com/) 為例
獲得頁面的內容
進行簡單的處理,獲得我們需要的內容
import requests from pyquery import PyQuery as pq __author__ = "BONFY CHEN結果 簡單分析" SITE = "http://www.qiushibaike.com/" r = requests.get(SITE) assert r.status_code == 200 d = pq(r.text) contents = d("div .article") for item in contents: i = pq(item) content = i("div .content").text() print(content)
利用 requests.get 獲得頁面
assert 斷言,如果網絡問題 訪問不到就退出
contents 利用 pyquery 獲得所有文章 后續 讀取 div class = "content" 的為文本內容 (這里沒有處理圖片后續的講解中會完善)
print 輸出
完整代碼補充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot
歡迎關注及一起交流
請期待下一篇: 代碼優化
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37937.html
摘要:代碼優化簡介這篇我們簡要的討論一下代碼優化,這里主要討論兩點過程到函數加入對的處理我們在中的編碼是面向過程的,這個不利于復用,所以我們簡單的將我們前面的代碼函數化,方便以后擴展及別人的調用另外,代碼最好符合規范,方便自己和別人閱讀編碼創建 Step2 - 代碼優化 簡介 這篇我們簡要的討論一下代碼優化,這里主要討論兩點 過程到函數 加入對media的處理 PEP8 我們在Step1...
摘要:而的異步非阻塞特性能夠完美的解決這一問題。爬蟲機器人功能實現我使用編寫的機器人是用來抓取來自游民星空的圖片。也是使用裝飾器進行回調函數注冊,使用進行消息更新。當沒有指令時,會顯示一些能夠查看的圖片類型。 原文鏈接 前言 aiotg 可以通過異步調用telegram api的方式來構建bot,因為決定開發一個爬蟲功能的bot,所以網絡請求阻塞是比較嚴重的性能障礙。而asyncio的異步非...
摘要:目的每兩秒允許個來自頭包含等的爬蟲類請求測試官方文檔中文相關解釋 目的: 每兩秒允許1個來自header頭包含Baiduspider等的爬蟲類請求 http { map $http_user_agent $is_limited_bot { ~Baiduspider 1; ~OtherSpider 2; default ; } limit_req_zone $i...
? 作者主頁:不吃西紅柿 ? 簡介:CSDN博客專家?、信息技術智庫公號作者?簡歷模板、PPT模板、技術資料盡管【關注】私聊我。歷史文章目錄:https://t.1yb.co/zHJo ? 歡迎點贊 ? 收藏 ?留言 ? 如有錯誤敬請指正! 本文重點: 1、爬蟲獲取csdn大佬之間的關系 2、可視化分析曖昧關系,復雜堪比娛樂圈 大佬簡介 ? Java李楊勇:一個性感的計算機專業畢業的...
閱讀 1776·2021-11-11 11:02
閱讀 1679·2021-09-22 15:55
閱讀 2483·2021-09-22 15:18
閱讀 3488·2019-08-29 11:26
閱讀 3743·2019-08-26 13:43
閱讀 2646·2019-08-26 13:32
閱讀 897·2019-08-26 10:55
閱讀 965·2019-08-26 10:27