国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python爬蟲實戰案例-爬取幣世界標紅快訊

red_bricks / 3235人閱讀

摘要:爬取幣世界標紅快訊內容移動版引入依賴寫你自己的數據庫地址需要自己安裝客戶端數據庫表名偽造成手機寫你自己的文件地址插入了一條新數據無新數據產生寫你自己的文件地址時間不一致宕機使用當前系統時間進行爬取時間一致正常運行主要要求掌握內容語法

爬取幣世界標紅快訊內容(移動版)
# 引入依賴
from lxml import etree
import requests
import pymongo
import time
client = pymongo.MongoClient("寫你自己的數據庫地址", 27017) # 需要自己安裝mongodb客戶端
mydb = client["mydb"]
information = mydb["information"] # 數據庫表名
currentTime = time.strftime("%m%d%H", time.localtime())
saveTime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

# 偽造成手機
header = {
    "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
}

def get_url(url):
    html = requests.get(url, headers=header)
    selector = etree.HTML(html.text)
    infos = selector.xpath("http://div[@id="kuaixun_list"]/div/article/section[@class="focus"]")
    onlyOne = selector.xpath("http://div[@id="kuaixun_list"]/div/article/section[@class="focus"]")[0]
    saveId = onlyOne.xpath("../@id")[0]
    file = open(r"C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest", "w") # 寫你自己的文件地址
    file.write(currentTime +" "+saveId)
    file.close()
    for info in infos:
        try:
            title = (info.xpath("h3[@class="text_title"]/text()")[0]).strip()
            content = (info.xpath("p[@class="text_show"]/text()")[0]).strip()
            date = info.xpath("../h3[@class="timenode"]/text()")[0]
            infoId = info.xpath("../@id")[0]

            data = {
                "title": title,
                "id": infoId,
                "date": saveTime,
                "content": content,
                "source": "bishijie"
            }

            print(data)

            if (int(infoId) > int(saveId) - 20):
                print("插入了一條新數據!")
                information.insert_one(data)
            else:
                print("無新數據產生!")

        except IndexError:
            pass

if __name__ == "__main__":
    fs = open("C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest", "r+") # 寫你自己的文件地址
    line = fs.read()
    fileDate = line[0:6]

    if (fileDate != currentTime):
        print("時間不一致,宕機使用當前系統時間進行爬取!")
        urls = ["http://m.bishijie.com/kuaixun?fm=" + currentTime]
        for url in urls:
            get_url(url)
            time.sleep(2)
    else:
        print("時間一致, 正常運行!")
        urls = ["http://m.bishijie.com/kuaixun?fm=" + currentTime]
        for url in urls:
            get_url(url)
            time.sleep(2)
            
主要要求掌握內容: xpath語法,python操作文件,python的基礎語法 本文內容比較基礎,寫的不好,多多指教!大家一起進步?。。?/b> 我的其他關于python的文章

Python爬蟲入門

Python爬蟲之使用MongoDB存儲數據

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41967.html

相關文章

  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • Python爬蟲實戰(2):爬取京東商品列表

    摘要:,源代碼爬取京東商品列表,以手機商品列表為例示例網址版本京東手機列表源代碼下載位置請看文章末尾的源。,抓取結果運行上面的代碼,就會爬取京東手機品類頁面的所有手機型號價格等信息,并保存到本地文件京東手機列表中。 showImg(https://segmentfault.com/img/bVxXHW); 1,引言 在上一篇《python爬蟲實戰:爬取Drupal論壇帖子列表》,爬取了一個用...

    shevy 評論0 收藏0
  • 【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現(01)webdriv

    摘要:且本小白也親身經歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數的爬蟲實際問題。 前言: 一個月前,博主在學過python(一年前)、會一點網絡(能按F12)的情況下,憑著熱血和興趣,開始了pyth...

    Half 評論0 收藏0
  • 如何快速掌握Python數據采集與網絡爬蟲技術

    摘要:通過本文的學習,可以快速掌握網絡爬蟲基礎,結合實戰練習,寫出一些簡單的爬蟲項目。從技術手段來說,網絡爬蟲有多種實現方案,如。二網絡爬蟲技術基礎在本次課中,將使用技術手段進行項目的編寫。 摘要:本文詳細講解了python網絡爬蟲,并介紹抓包分析等技術,實戰訓練三個網絡爬蟲案例,并簡單補充了常見的反爬策略與反爬攻克手段。通過本文的學習,可以快速掌握網絡爬蟲基礎,結合實戰練習,寫出一些簡單的...

    W4n9Hu1 評論0 收藏0
  • python爬蟲實戰爬取西刺代理的代理ip(二)

    摘要:爬蟲實戰二爬取西刺代理的代理對于剛入門的同學來說,本次實戰稍微有點難度,但是簡單的爬取圖片文本之類的又沒營養,所以這次我選擇了爬取西刺代理的地址,爬取的代理也能在以后的學習中用到本次實戰用的主要知識很多,其中包括自動保存利用抓包工具獲取和匹 爬蟲實戰(二):爬取西刺代理的代理ip 對于剛入門的同學來說,本次實戰稍微有點難度,但是簡單的爬取圖片、文本之類的又沒營養,所以這次我選擇了爬...

    fsmStudy 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<