精品福利影院,女女互慰刺激小说,日本人妖tubexxxx

摘要：如果有人有興趣的話，可以編寫則個下面，我會說明在編寫爬蟲過程中的所思所想。文章讀取完畢最后，還要再編寫一個語句，判斷是運行還是導入。文章結束前的一些話嗯，本文到這里就結束了。

今天，根據網頁的結構，嘗試了下如何抓取煎蛋首頁上的文章。目標很簡單：

根據首頁上面的文章鏈接，載入文章，而后將文章的標題和正文（不帶圖片）抓取下來。

將首頁上抓取的內容整合起來，制作成格式如下的Markdown簡介。

如此反復即可。這里要說明下，由于煎蛋首頁和余下頁碼的網頁結構不同，我沒有再寫余下頁面的簡介。如果有人有興趣的話，可以編寫則個~下面，我會說明在編寫爬蟲過程中的所思所想。

這便是全部準備了。在這里要多嘴一句，包括re模塊在內都存在替代品，如果需要可以根據自己的喜好來選擇。

在編寫代碼之前，要分析如何抓取并處理網頁。以抓取一篇文章鯨魚有鯨語，鯨語有口音為例。我們要實現：

解析數據，從數據中抽出我們需要的內容——這里是文章標題和文章內容（只有文字）

這樣，可以根據實現的內容，將代碼分為三個部分，用函數來整合：

download_page(url)：接受一個URL（通常是網址），下載網頁，而后獲取數據（當然，不止下載網頁而已，還有很多內容，但對于現在來說，這么講就好）

parse_article(data)：接受上面的函數返回的data，并解析為我們需要的內容

write_article(title, content)：接受上面的函數返回的標題和文章內容，并寫入文件中。

這三個部分中，現在我感覺最難的是其中的parse_article(data)。當然，一部分是因為我的經驗不足，經常要花很長時間才找到需要的內容。這里，推薦讀者在瀏覽器中使用右鍵——查找元素來輔助解析網頁。

當明白怎么爬取一篇文章的時候，爬取其他內容就是一些細節上的事情了。細節上的內容可以通過模塊的文檔來獲取。我提到的兩個第三方模塊的中文資料都比較豐富（百度一下即可），所以不再贅述。這里只說明幾個需要注意下的細節：

在發送請求的時候，網頁可能會通過檢查頭信息中的User-Agent來判斷是否是一個人瀏覽網頁。最簡單的解決問題的方法就是自己寫一個頭信息，偽裝成一個人。

如果抓取的頻率過快，可能會被服務器拒絕訪問，如果IP被封了就完了。這里有兩個解決問題的思路：

設置一個簡單的爬蟲測試服務器可以接受的訪問頻率，從慢而快的訪問網頁。（就是看服務器的忍受程度是多少）

網頁上通常不止有一個地方包含了我們所需的內容（比如有兩個塊可以實現下一頁的功能），所以，一個塊難解析可以使用另一個塊，變通下嘛~

這里以抓取一篇文章鯨魚有鯨語，鯨語有口音為例。剛才提到了，要實現三個函數：

首先是第一個函數download_page(url)。由于內容單一，所以實現比較簡單（要注意的是，這里需要準備一些防反爬蟲的措施）。下面將展示如何偽裝成一個瀏覽器下載網頁或者其中的數據：

我們這里偽裝了一個火狐瀏覽器。這個信息不需要你輸入或者從這里復制，如果需要的話，可以在瀏覽器中右鍵——查看元素——網絡而后就可以查看消息頭并偽裝成你自己的瀏覽器了。我們這里使用的HTTP請求中的get方法，如果有看過之前的內容（指HTTP權威指南的一部分），就可以明白這里是什么意思啦~

下面是第二個函數parse_article(data)，內容比較復雜，而且是根據我們要爬取的文章頁面制定的。我們首先放到文章的主體上，右鍵——查看元素，可以看到主體的部分結構是這樣的：

嗯，可以明白（如果不明白的話，請自己補習HTML的基礎知識。這部分在Segmantfault里面搜集即可）文章的主體部分在

中。其中，標題在其中的

標簽的文本內部，而正文則是其中的

標簽的內容。

據此，我們可以使用beatifulsoup來實現我們的第二個函數：

def parse_article(html):
    soup = BeautifulSoup(html, "html.parser")
    # 從上面的數據獲取html文檔并解析，這里使用的是Python自帶的HTML解釋器
    article = soup.find("div", attrs={"class": "post f"})
    # 縮小HTML文檔的解析范圍，限定在文章主體內部。
    title = article.find("h1").getText()
    # 獲取文章主體內部的標簽內的文本，可以發現這就是標題內容。

    paras = []
    # 創建一個列表，以段落的形式，向里面填充文本。

    for paragraph in article.find_all("p"):
        p_content = paragraph.getText()
        # 獲取標簽內的文本，這里就是段落文本內容。
        paras.append(p_content)

    return title, paras
    # 返回標題和參數，用于寫入文件。

3.3 整理數據

獲取我們需要的所有數據（標題和內容）以后，需要將其寫入文件中。我們首先需要拼接一個文件名，創建并打開文件。這里要注意參數wb。在Python3.X中，b參數是自動添加的（如果沒有寫則會填上去，有的話就不會自己填上去）；但是在Python2.X中不是這樣，所以最好填上去，避免換了版本以后出現一些奇怪的Bug。當然，不換也行~

def get_article(title, url):
    file_name = title + ".txt"
    # 拼接文件名
    with codecs.open(file_name, "wb", encoding="utf-8") as fp:
        html = download_page(url)
        # 調用第一個函數獲取數據
        title2, text = parse_article(html)
        # 調用第二個函數獲取數據
        fp.write("	%s	
" % title2)
        for p in text:
            fp.write("	%s
" % p)
        # 將獲取的數據寫入文件。
        
    print("文章讀取完畢！")
    return "OK"

最后，還要再編寫一個if語句，判斷是運行還是導入。運行文件的時候，可以通過調用第三個函數來實現我們的目的。

if __name__ == "__main__":
    url = "http://jandan.net/2016/02/18/caribbean-whales.html"
    get_article(url)

4. 文章結束前的一些話

嗯，本文到這里就結束了。下面還有抓取簡單首頁文章的爬蟲。不過爬取的過程也是上面的幾步，如果看懂的話，就可以編寫出來?？床欢脑挕?，其實我只是因為開心想炫耀一下，哈哈哈哈來打我啊~~

我是胡一波，集帥氣與智慧于一身的美男子，每天都被自己帥醒。如果各位發現這些代碼有問題的話，請跟我說，我會盡快回復并發送一塊錢！這些錢可以指定給任意人或者機構（比如慈善組織和開源項目），就醬~

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

編寫爬蟲的一些感想（就是高興）

相關文章

Python大一學習感想

個人感想

前端渲染與SEO優化踩坑小記

前端渲染與SEO優化踩坑小記

趁著課余時間學點Python（十四）文件操作

發表評論

0條評論

inapt

男|高級講師

TA的文章

flowstack

ion(kryptcloud)：9月vps促銷，$120/年，2核/2G內存/60gSSD/3T流量

【和60】軟件即服務的三重境界

BlueHost ：美國VPS云主機2GB內存2TB流量20GB固態硬盤月49元

瀏覽器緩存原理以及本地存儲

用JS添加某些CSS屬性導致:hover失效

如何造一個『為移動端而生』的日歷

兼容移動端 js彈出框實現微信禁止h5禁止網頁下拉，滾動穿透，禁止微信內置瀏覽器下拉網頁

最新活動