国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

第一個網絡爬蟲-抓取CodeSnippet代碼片段

xcold / 1233人閱讀

摘要:抓取代碼片段目標抓取中的代碼片段分析代碼分享你的世界代碼塊發布代碼片段片段列表一個線程如果是個人英雄主義,那么多線程就是集體主義,你不再是一個獨行俠,而是一個指揮家。

CodeSnippet 抓取代碼片段 目標

抓取CodeSnippet中的代碼片段

分析

代碼

    
  •                     
                        

  • 一個線程如果是個人英雄主義,那么多線程就是集體主義,你不再是一個獨行俠,而是一個指揮家。
  • 共有 {15106} 個代碼片段

我們想要抓取的內容在為 li class="con-code bbor" 所以 BeautifulSoup find()方法獲取到該標簽然后獲取其文本內容

準備

準備我們爬蟲比用的兩個模塊

from urllib2 import urlopen

from bs4 import BeautifulSoup
編寫抓取代碼
# 抓取http://www.codesnippet.cn/index.html 中的代碼片段

def GrapIndex():
    html = "http://www.codesnippet.cn/index.html"
    bsObj = BeautifulSoup(urlopen(html), "html.parser")
    return bsObj.find("li",  {"class":"con-code bbor"}).get_text()

當我們抓取到我們想要的數據之后接下來要做的就是把數據寫到數據庫里,由于我們現在抓取數據簡單,所以只寫文件即可!

def SaveResult():
    codeFile=open("code.txt", "a") # 追加
    for list in GrapIndex():
        codeFile.write(list)
    codeFile.close()
當我們在寫文件的時候出現了以下錯誤,而下面這個錯誤的造成原因則是由于python2.7是基于ascii去處理字符流,當字符流不屬于ascii范圍內,就會拋出異常(ordinal not in range(128))

UnicodeEncodeError: "ascii" codec can"t encode character u"u751f" in position 0: ordinal not in range(128)

分析

python2.7是基于ascii去處理字符流,當字符流不屬于ascii范圍內,就會拋出異常(ordinal not in range(128))

解決辦法
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
完整代碼展示
from urllib2 import urlopen

from bs4 import BeautifulSoup

import os
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

def GrapIndex():
    html = "http://www.codesnippet.cn/index.html"
    bsObj = BeautifulSoup(urlopen(html), "html.parser")
    return bsObj.find("li",  {"class":"con-code bbor"}).get_text()

def SaveResult():
    codeFile=open("code.txt", "a")
    for list in GrapIndex():
        codeFile.write(list)
    codeFile.close()

if __name__ == "__main__":
    for i in range(0,9):
        SaveResult()

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38298.html

相關文章

  • 從0-1打造最強性能Scrapy爬蟲集群

    摘要:包括爬蟲編寫爬蟲避禁動態網頁數據抓取部署分布式爬蟲系統監測共六個內容,結合實際定向抓取騰訊新聞數據,通過測試檢驗系統性能。 1 項目介紹 本項目的主要內容是分布式網絡新聞抓取系統設計與實現。主要有以下幾個部分來介紹: (1)深入分析網絡新聞爬蟲的特點,設計了分布式網絡新聞抓取系統爬取策略、抓取字段、動態網頁抓取方法、分布式結構、系統監測和數據存儲六個關鍵功能。 (2)結合程序代碼分解說...

    vincent_xyb 評論0 收藏0
  • 基于 Electron 的爬蟲框架 Nightmare

    摘要:話題精華即為知乎的高票回答。下面的項目中還包含了另外一個爬取的知乎的動態。 作者:William本文為原創文章,轉載請注明作者及出處 Electron 可以讓你使用純 JavaScript 調用 Chrome 豐富的原生的接口來創造桌面應用。你可以把它看作一個專注于桌面應用的 Node.js 的變體,而不是 Web 服務器。其基于瀏覽器的應用方式可以極方便的做各種響應式的交互,接下來介...

    Harriet666 評論0 收藏0
  • 爬蟲入門

    摘要:通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲,爬取對象從一些種子擴充到整個。為提高工作效率,通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。 爬蟲 簡單的說網絡爬蟲(Web crawler)也叫做網絡鏟(Web scraper)、網絡蜘蛛(Web spider),其行為一般是先爬到對應的網頁上,再把需要的信息鏟下來。 分類 網絡爬蟲按照系統結構和實現技術,...

    defcon 評論0 收藏0
  • 爬蟲入門

    摘要:通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲,爬取對象從一些種子擴充到整個。為提高工作效率,通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。 爬蟲 簡單的說網絡爬蟲(Web crawler)也叫做網絡鏟(Web scraper)、網絡蜘蛛(Web spider),其行為一般是先爬到對應的網頁上,再把需要的信息鏟下來。 分類 網絡爬蟲按照系統結構和實現技術,...

    Invoker 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<