摘要:應(yīng)女朋友要求,為了能及時(shí)掌握技術(shù)動(dòng)向,特意寫了這個(gè)爬蟲,每天定時(shí)爬取博客園首頁并發(fā)送至微信。
應(yīng)女朋友要求,為了能及時(shí)掌握技術(shù)動(dòng)向,特意寫了這個(gè)爬蟲,每天定時(shí)爬取博客園首頁并發(fā)送至微信。
環(huán)境:Python3.4
第三方庫Requests:向服務(wù)器發(fā)送請(qǐng)求
BeautifulSoup4:解析Html
wxpy:微信接口
Schedule:定時(shí)器
代碼# -*-coding:utf-8 -*- import requests from requests import exceptions from bs4 import BeautifulSoup as bs import re from wxpy import * import schedule import time bot=Bot(cache_path=True) #獲取網(wǎng)頁內(nèi)容 def getHtml(pageIndex): #定義請(qǐng)求頭 偽裝成瀏覽器 headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"} #pageIndex代表頁數(shù) payload={"CategoryType": "SiteHome", "ParentCategoryId": "0", "CategoryId": "808", "PageIndex": pageIndex, "TotalPostCount": "4000"} try: r=requests.post("https://www.cnblogs.com/mvc/AggSite/PostList.aspx",data=payload,headers=headers) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except requests.RequestException as e: return e.strerror #向微信文件傳輸助手發(fā)送消息 def sendblogmsg(content): #搜索自己的好友 #my_friend = bot.friends().search("")[0] my_friend=bot.file_helper my_friend.send(content) def job(): contents="" #i表示當(dāng)前頁數(shù) for i in range(1,3): html=getHtml(i) soup=bs(html,"html.parser") blogs=soup.findAll("div",{"class":"post_item_body"}) for blog in blogs: title=blog.find("h3").get_text() summary=blog.find("p",{"class":"post_item_summary"}).get_text() link=blog.find("a",{"class":"titlelnk"})["href"] content="標(biāo)題:"+title+" 鏈接:"+link+" ----------- " contents+=content sendblogmsg(contents) #定時(shí) schedule.every().day.at("06:00").do(job) while True: schedule.run_pending() time.sleep(1) bot.join()注意事項(xiàng):
不要進(jìn)行惡意攻擊行為
盡量在空閑時(shí)間訪問網(wǎng)站,控制訪問頻率,不要惡意消耗網(wǎng)站資源
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41586.html
摘要:目標(biāo)選取了博客園,爬取了首頁的前頁文章,但是數(shù)據(jù)放在那一直沒去分析。為了避免對(duì)博客園造成壓力,爬蟲代碼不公開。注數(shù)據(jù)來源是年月日至月的博客園首頁文章。誰是博客園最愛的用戶最愛的用戶,在這里是按文章上首頁的數(shù)量來判斷的。 前言 之前折騰了一小段時(shí)間scrapy,覺得使用起來異常簡單,然后打算練練手。目標(biāo)選取了博客園,爬取了首頁的前200頁文章,但是數(shù)據(jù)放在那一直沒去分析。趁著現(xiàn)在有閑心,...
摘要:今天呢我想給大家,也給我自己,對(duì)我的個(gè)人網(wǎng)站做一個(gè)全面的整理和分析。首頁上用戶直接看得到的部分有導(dǎo)航欄和輪播大圖當(dāng)時(shí)寫這個(gè)網(wǎng)站的設(shè)想是在年月份的時(shí)候。目前網(wǎng)上流行的個(gè)人博客頁面。感謝框架對(duì)本網(wǎng)站的大力支持。大家好~又見面了。 今天呢我想給大家,也給我自己, 對(duì)我的個(gè)人網(wǎng)站yanyy.cn/yanyy 做一個(gè)全面的整理和分析。 也給有這方面想法的朋友一個(gè)參考。 做網(wǎng)站的有愛好也有帶有目的性的。...
摘要:本人以前也是搞過幾年,由于公司的崗位職責(zé),后面漸漸地被掰彎,現(xiàn)在主要是做前端開發(fā)。所以想利用爬取文章,再將爬取的轉(zhuǎn)化成目前還未實(shí)現(xiàn),歡迎各位同學(xué)指導(dǎo)。 java爬取博客園個(gè)人博客 前言 近期本人在某云上購買了個(gè)人域名,本想著以后購買與服務(wù)器搭建自己的個(gè)人網(wǎng)站,由于需要籌備的太多,暫時(shí)先擱置了,想著先借用GitHub Pages搭建一個(gè)靜態(tài)的站,搭建的過程其實(shí)也曲折,主要是域名地址配置把...
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:要錢的簡單理解百度的廣告就是不用錢的自己配置提高搜索引擎的權(quán)重是一種技術(shù),主要是用于提高網(wǎng)站瀏覽量而做的優(yōu)化手段為什么需要我們搜一下微信公眾號(hào)發(fā)現(xiàn)排名是有先后的,博客園都是靠前的。 CDN 什么是CDN 初學(xué)Web開發(fā)的時(shí)候,多多少少都會(huì)聽過這個(gè)名詞->CDN。 CDN在我沒接觸之前,它給我的印象是用來優(yōu)化網(wǎng)絡(luò)請(qǐng)求的,我第一次用到CDN的時(shí)候是在找JS文件時(shí)。當(dāng)時(shí)找不到相對(duì)應(yīng)的JS文件...
閱讀 3870·2021-09-10 11:22
閱讀 2325·2021-09-03 10:30
閱讀 3660·2019-08-30 15:55
閱讀 1873·2019-08-30 15:44
閱讀 840·2019-08-30 15:44
閱讀 582·2019-08-30 14:04
閱讀 3042·2019-08-29 17:18
閱讀 1262·2019-08-29 15:04