国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

郵件信息抽取

codercao / 2999人閱讀

摘要:公司的一個項目,首先需要過濾一下郵件郵件的主要內容就是應聘信息當然會產生很多的垃圾郵件,比如智聯招聘發的廣告獵頭郵件和網易廣告等這里首先要過濾一下郵件,把沒有用處的垃圾郵件過濾掉本著先易后難的原則,首先使用簡單的過濾方法簡單的說就是根據標題

公司的一個項目,首先需要過濾一下郵件
郵件的主要內容就是應聘信息
當然會產生很多的垃圾郵件,比如智聯招聘發的廣告、獵頭郵件和網易廣告等
這里首先要過濾一下郵件,把沒有用處的垃圾郵件過濾掉

本著先易后難的原則,首先使用簡單的過濾方法
簡單的說就是根據標題中的關鍵詞,發件人郵箱來過濾郵件
這樣的過濾方法其實過濾的準確性還是挺高的

當然啦,準確率和召回率可能還是要差一點的

經過初步過濾之后,接下來要做的就是信息的抽取

這個東西難度較大,
抽取的東西有地址、人名、公司名、職位、聯系方式等
機器識別畢竟無法達到人類的高度

本次開發中主要使用python來做,這里寫一下python項目需要注意的問題

1、不要濫用try ... except .....

 感覺這個問題很嚴重,如果濫用,而且還沒處理好的話,出了問題根   
 本就無法調試,返回錯誤如果不對的話根本就無法追蹤

2、要注意編碼問題

 在使用python處理中文的時候,編碼問題是格外重要,不過python的
 編碼還是比較簡單,我遇到的有gbk、gb18030、gb2312、utf8這幾
 種使用的時候統一轉為utf8比較方便

3、時間的處理

 這個還是比較麻煩的,郵件中的時間都是字符串類型,關鍵是要知道
 怎么去轉化,例如:
 Wed, 2 Mar 2016 14:31:24 +0800 (CST)
 這里面的Wed, 2 Mar 2016 14:31:24部分,可以通過以下方式來做
 time.strptime("Wed, 2 Mar 2016 14:31:24", "%a,%d %b %Y %H:%M:%S")
 這樣也能生成一個time的對象
 缺點就是需要截取一部分,而且不知道時間格式是否會變化,如果變化的話那也是要出問題的
 
 這里面email模塊提供了一個解析的方法
 from email import utils
 utils.mktime_tz(utils.parsedate_tz(timestr))
 這樣返回的是時間戳,然后再用
 time.localtime(stamptime)
 就可以返回正常的時間格式了
 其實email的utils方法提供了很多的解析郵件的方法,比如:
 utils.parseaddr()就可以把msg.get("From")里面的內容解析成郵箱 

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37784.html

相關文章

  • 邀好友贏大獎!快來抽取你的 2019 新年上上簽!

    摘要:為保證活動的公平公正,對任何惡意刷量的行為,七牛云有停止發放抽獎機會及收回獎勵資源的權利。邀好友,抽好簽,贏好禮進入七牛云官網立即參與牛小七提前祝大家年,新年快樂 還有不到一個星期,2019 年就將正式「官宣」。值此之際,七牛云特別推出【好運+好禮】新年上上簽活動~不僅有好運好彩頭,還有超多驚喜好禮等你拿。天貓購物卡、七牛云產品優惠包、櫻桃機械鍵盤、終極大獎 iPhone Xs 256...

    dailybird 評論0 收藏0
  • CodeIgniter框架中抽取部分類庫做問題追蹤的思路

    摘要:背景由于各種原因,沒有接入完整的調用鏈追蹤,。顯然,有基本的操作。抽取整個對象的所有對象實例隊列中的結果不足框架中不可避免的使用了操作,或者其他業務代碼中也使用。這樣導致鉤子函數無法正常完成他的使用。 背景 由于各種原因,沒有接入完整的調用鏈追蹤,(┬_┬)。但是我們自身再通過php的curl調用各端接口時,會請求多次。那么有沒有一種方法可以在不植入業務代碼的前提下,捕捉到這些curl...

    沈儉 評論0 收藏0
  • thinkphp5+swoole實現異步郵件群發(SMTP方式)

    摘要:圖中其他兩個文件和是郵件發送類的核心文件,為了簡化調用,抽取了出來,詳細的用法和參數設置,可以參考的使用說明注意點在此步驟中,我們需要注意幾點是你設置的郵件發送的賬號是否已經開啟并且找對對應的安全協議和端口號。 1、環境說明 阿里云centos7thinkphp5.0.11swoole2.0.8 2、tp實現郵件發送 在項目下建立如下的文件目錄:showImg(https://segm...

    tuniutech 評論0 收藏0
  • scrapy 進階使用

    摘要:下載器負責獲取頁面,然后將它們交給引擎來處理。內置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請求和響應對象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個字典來配置。 前段時間我寫了一篇《scrapy快速入門》,簡單介紹了一點scrapy的知識。最近我的搬瓦工讓墻了,而且我又學了一點mongodb的知識,所以這次就來介紹一些scr...

    The question 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<