摘要:源碼地址準備一臺云服務器寫好的腳本效果因為現在一個的客戶端啟動越來越慢,而且很多自己不感興趣的東西我只是想看看文章,所以就寫了這個小爬蟲。因為一個是每天點會更新,所以自己的服務器要做一個定時服務,下自帶了定時任務。
源碼地址:https://github.com/xcc3641/pySendOneToEmail
準備一臺云服務器
寫好的Python腳本
效果因為現在“一個”的Android客戶端啟動越來越慢,而且很多自己不感興趣的東西(我只是想看看文章),所以就寫了這個小爬蟲。它可以在“一個”更新后把我要的內容發到我的郵箱里。
放在云服務器里,所以不用擔心電費啊其他問題~
實踐 云服務器自己配置的是阿里云的服務器,學生特惠9.9,Ubuntu系統。這個系統自帶了Python2.7環境,所以不用自己手動去安裝。
本地是用的Window10系統,最好安裝下SecureCRSecureFXPortable。遠程連接自己的服務器,而且命令行和文件操作會簡便很多。
因為“一個”是每天22點會更新,所以自己的服務器要做一個定時服務,ubuntu下自帶了Crontab定時任務。
配置Crontab
加入需要執行的腳本
crontab -e 1 22 * * * 路徑/python 路徑/xxx.py 保存重啟 /etc/init.d/cron restart
Python最好寫全路徑,這是一個坑
需要在root用戶下進行
具體的Crontab可以參考Crontab
Python代碼這里主要是用到了python自帶的郵件服務的庫和第三方網絡解析庫,代碼量不多而且也不難,有編程基礎的很容易學會。
郵件相關郵件類庫
from email.mime.multipart import MIMEMultipart from email.header import Header from email.mime.text import MIMEText from email.utils import parseaddr, formataddr import smtplib
配置郵件&發送郵件的關鍵代碼
msg = MIMEMultipart() msg["From"] = _format_addr(u"Xie CC <%s>" % from_addr) msg["To"] = _format_addr(u"管理員 <%s>" % to_addr) msg["Subject"] = Header(u"The One " + title, "utf-8").encode() msg.attach(MIMEText("
" + text + "
" + story + "", "html", "utf-8")) server = smtplib.SMTP(smtp_server, 25) server.set_debuglevel(1) server.login(from_addr, password) server.sendmail(from_addr, [to_addr], msg.as_string()) server.quit()這里自己就不詳細介紹這個庫,具體可以參考這個教程,Python不是很難理解.
爬取信息類庫
import requests from bs4 import BeautifulSoup有一次用urllib,urllib2發現會遇到各種編碼問題需要自己去解決,特別煩人。然后轉到了requests這個庫,完全沒有遇到像url那樣惡心的編碼問題,而且很多需求都可以滿足,所以后面爬靜態網頁都習慣用這個庫了。
以前還是蠻喜歡用正則的,這次就學習了下bs4的用法,感覺還是挺容易上手的。具體的實現都不難,都是基礎的爬蟲知識,而且“一個”并沒有反爬蟲的設定,所以蠻適合初學者的。
用工具方便自己,我覺得這就是自己編程的意義,這讓我很開心。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37744.html
摘要:也就是說,我的篇文章的請求對應個實例,這些實例都請求完畢后,執行以下邏輯他的目的在于對每一個返回值這個返回值為單篇文章的內容,進行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點在于,這是個nodejs腳本,非常短,包括注釋只有71行。 ...
閱讀 3535·2023-04-25 20:41
閱讀 2670·2023-04-25 16:40
閱讀 1438·2021-09-23 11:44
閱讀 1258·2021-09-10 10:51
閱讀 1687·2021-09-07 09:59
閱讀 1652·2019-12-27 12:08
閱讀 559·2019-08-30 15:44
閱讀 3340·2019-08-30 11:08