摘要:抓取代碼片段目標抓取中的代碼片段分析代碼分享你的世界代碼塊發布代碼片段片段列表一個線程如果是個人英雄主義,那么多線程就是集體主義,你不再是一個獨行俠,而是一個指揮家。
CodeSnippet 抓取代碼片段 目標
抓取CodeSnippet中的代碼片段
分析 代碼我們想要抓取的內容在為 li class="con-code bbor" 所以 BeautifulSoup find()方法獲取到該標簽然后獲取其文本內容
準備準備我們爬蟲比用的兩個模塊
from urllib2 import urlopen from bs4 import BeautifulSoup編寫抓取代碼
# 抓取http://www.codesnippet.cn/index.html 中的代碼片段 def GrapIndex(): html = "http://www.codesnippet.cn/index.html" bsObj = BeautifulSoup(urlopen(html), "html.parser") return bsObj.find("li", {"class":"con-code bbor"}).get_text()
當我們抓取到我們想要的數據之后接下來要做的就是把數據寫到數據庫里,由于我們現在抓取數據簡單,所以只寫文件即可!
def SaveResult(): codeFile=open("code.txt", "a") # 追加 for list in GrapIndex(): codeFile.write(list) codeFile.close()當我們在寫文件的時候出現了以下錯誤,而下面這個錯誤的造成原因則是由于python2.7是基于ascii去處理字符流,當字符流不屬于ascii范圍內,就會拋出異常(ordinal not in range(128))
分析UnicodeEncodeError: "ascii" codec can"t encode character u"u751f" in position 0: ordinal not in range(128)
解決辦法python2.7是基于ascii去處理字符流,當字符流不屬于ascii范圍內,就會拋出異常(ordinal not in range(128))
import sys reload(sys) sys.setdefaultencoding("utf-8")完整代碼展示
from urllib2 import urlopen from bs4 import BeautifulSoup import os import sys reload(sys) sys.setdefaultencoding("utf-8") def GrapIndex(): html = "http://www.codesnippet.cn/index.html" bsObj = BeautifulSoup(urlopen(html), "html.parser") return bsObj.find("li", {"class":"con-code bbor"}).get_text() def SaveResult(): codeFile=open("code.txt", "a") for list in GrapIndex(): codeFile.write(list) codeFile.close() if __name__ == "__main__": for i in range(0,9): SaveResult()
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38298.html
摘要:包括爬蟲編寫爬蟲避禁動態網頁數據抓取部署分布式爬蟲系統監測共六個內容,結合實際定向抓取騰訊新聞數據,通過測試檢驗系統性能。 1 項目介紹 本項目的主要內容是分布式網絡新聞抓取系統設計與實現。主要有以下幾個部分來介紹: (1)深入分析網絡新聞爬蟲的特點,設計了分布式網絡新聞抓取系統爬取策略、抓取字段、動態網頁抓取方法、分布式結構、系統監測和數據存儲六個關鍵功能。 (2)結合程序代碼分解說...
摘要:話題精華即為知乎的高票回答。下面的項目中還包含了另外一個爬取的知乎的動態。 作者:William本文為原創文章,轉載請注明作者及出處 Electron 可以讓你使用純 JavaScript 調用 Chrome 豐富的原生的接口來創造桌面應用。你可以把它看作一個專注于桌面應用的 Node.js 的變體,而不是 Web 服務器。其基于瀏覽器的應用方式可以極方便的做各種響應式的交互,接下來介...
閱讀 3196·2021-11-18 10:02
閱讀 1446·2021-10-12 10:08
閱讀 1239·2021-10-11 10:58
閱讀 1269·2021-10-11 10:57
閱讀 1167·2021-10-08 10:04
閱讀 2121·2021-09-29 09:35
閱讀 773·2021-09-22 15:44
閱讀 1269·2021-09-03 10:30