国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[新手開源] 爬取韓寒“一個”文章且自動郵件發送功能

zhkai / 1493人閱讀

摘要:源碼地址準備一臺云服務器寫好的腳本效果因為現在一個的客戶端啟動越來越慢,而且很多自己不感興趣的東西我只是想看看文章,所以就寫了這個小爬蟲。因為一個是每天點會更新,所以自己的服務器要做一個定時服務,下自帶了定時任務。

源碼地址:https://github.com/xcc3641/pySendOneToEmail

準備

一臺云服務器

寫好的Python腳本

效果

因為現在“一個”的Android客戶端啟動越來越慢,而且很多自己不感興趣的東西(我只是想看看文章),所以就寫了這個小爬蟲。它可以在“一個”更新后把我要的內容發到我的郵箱里。

放在云服務器里,所以不用擔心電費啊其他問題~

實踐 云服務器

自己配置的是阿里云的服務器,學生特惠9.9,Ubuntu系統。這個系統自帶了Python2.7環境,所以不用自己手動去安裝。

本地是用的Window10系統,最好安裝下SecureCRSecureFXPortable。遠程連接自己的服務器,而且命令行和文件操作會簡便很多。

因為“一個”是每天22點會更新,所以自己的服務器要做一個定時服務,ubuntu下自帶了Crontab定時任務。

配置Crontab

加入需要執行的腳本

crontab -e
1 22 * * * 路徑/python 路徑/xxx.py
保存重啟 /etc/init.d/cron restart

Python最好寫全路徑,這是一個坑

需要在root用戶下進行

具體的Crontab可以參考Crontab

Python代碼

這里主要是用到了python自帶的郵件服務的庫和第三方網絡解析庫,代碼量不多而且也不難,有編程基礎的很容易學會。

郵件相關

郵件類庫

   from email.mime.multipart import MIMEMultipart
   from email.header import Header
   from email.mime.text import MIMEText
   from email.utils import parseaddr, formataddr
   import smtplib

配置郵件&發送郵件的關鍵代碼

    msg = MIMEMultipart()

    msg["From"] = _format_addr(u"Xie CC <%s>" % from_addr)
    msg["To"] = _format_addr(u"管理員 <%s>" % to_addr)
    msg["Subject"] = Header(u"The One    " + title, "utf-8").encode()

    msg.attach(MIMEText("


" + text + "






" + story + "", "html", "utf-8")) server = smtplib.SMTP(smtp_server, 25) server.set_debuglevel(1) server.login(from_addr, password) server.sendmail(from_addr, [to_addr], msg.as_string()) server.quit()

這里自己就不詳細介紹這個庫,具體可以參考這個教程,Python不是很難理解.

爬取信息

類庫

   import requests
   from bs4 import BeautifulSoup

有一次用urllib,urllib2發現會遇到各種編碼問題需要自己去解決,特別煩人。然后轉到了requests這個庫,完全沒有遇到像url那樣惡心的編碼問題,而且很多需求都可以滿足,所以后面爬靜態網頁都習慣用這個庫了。

以前還是蠻喜歡用正則的,這次就學習了下bs4的用法,感覺還是挺容易上手的。具體的實現都不難,都是基礎的爬蟲知識,而且“一個”并沒有反爬蟲的設定,所以蠻適合初學者的。

用工具方便自己,我覺得這就是自己編程的意義,這讓我很開心。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37744.html

相關文章

  • nodeJS實現基于Promise爬蟲 定時發送信息到指定郵件

    摘要:也就是說,我的篇文章的請求對應個實例,這些實例都請求完畢后,執行以下邏輯他的目的在于對每一個返回值這個返回值為單篇文章的內容,進行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點在于,這是個nodejs腳本,非常短,包括注釋只有71行。 ...

    xuweijian 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<