国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

機器學習實戰,使用樸素貝葉斯來做情感分析

levinit / 1548人閱讀

摘要:至于為什么選取樸素貝葉斯,很大一個原因是因為樸素貝葉斯在垃圾郵件分類上有不錯的效果,而確定一個句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。

前言

前段時間更新了一系列基礎的機器學習算法,感覺有些無味,而且恰好那時買了了國內某公司的云服務器,就打算部署一套文本處理的WEB API,順別應用一下之前學習到的機器學習算法。(文末放出地址)

本文不會涉及過于復雜的數學原理,主要講述如何提取特征與調用模型。

實現了的api

分詞
訪問/cut?sentence=&method=,其中sentence參數指明需要分詞的句子,method參數指明分詞的方式。

統計詞頻
訪問/count?sentence=&=method=,其中的參數說明和分詞的api一致。

情感分析
訪問/count?sentence=,因為目前是針對句子的,因此sentence的范圍限制了在1~200詞之間。

本文重點講述情感分析的實現。

情感分析的實現

情感分析的應用是多種多樣的,往大了說,可以用于國家對某個熱點進行輿情監控,選舉的選情分析,電商對產品的售后意向調查,往小了說還可以寫一個腳本對你女神的微博進行關心,在女神不開心的時候及時送上關心。

至于情感分析的實現,在學術論文上均有提及,大致過程都可以分為提取情感極性詞,將語句轉化為向量,扔進你訓練好的模型里

在這里我們針對實際情況做出一定的修改,提取情感極性詞,必然是需要詞典來參考的,雖然各大語言機構都有公開的詞典,,但并不建議使用這些詞典。其中一個原因是因為這些公開的詞典太過書面化,和“禮貌”,不太接近日常生活。因此這這里我采用的是自定義詞典,另外一點是,在提取關鍵詞部分不僅僅是提取情感相關的詞語,同時也使用其他日常用語,比如草泥馬,雖然不像開心,傷心這樣的情感極性詞,但草泥馬顯然具有明確的情感偏向。

值得說明的是,我們既然在提取特征詞的時候考慮到平常的詞語,同樣也就意味這一些亂七八糟的詞語會混進來,所以我們在提取完特征詞后,同時計算它們的詞頻,只取頻率排名的前20%,(當然這個數字可以根據自己需要調整)。

挑選的出來的特征詞就構成了[word1,word2,word3……],同時檢測訓練樣本,若樣本中出現了特征詞,則該樣本的特征向量對應位置置1,否則為0。

構成特征向量后,我選取的算法是樸素貝葉斯,關于其原理,可以查看我支持的專欄機器學習從入門到放棄之樸素貝葉斯。至于為什么選取樸素貝葉斯,很大一個原因是因為樸素貝葉斯在垃圾郵件分類上有不錯的效果,而確定一個句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。

在sklearn中,只要添加如下代碼即可。

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb = gnb.fit(feature, label)
result = gnb.predice(test)

上述api中涉及的分詞操作均是使用 結巴分詞 完成。

測試效果

下面測試用例又黃又暴力,未成年觀眾在家長的陪同下觀看。

開源代碼

dudulu

WEB API測試頁面

目前只有情感分析的api的測試頁面

dudulu
不得不說使用了必應的背景圖來做自己網站的背景圖效果相當不錯。

后話

希望大家多多調戲(目前語料只支持中文),后端的日志會記錄下測試記錄(算是收集數據),我會周期性上去更新模型,效果理論上會越變越好。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38185.html

相關文章

  • ApacheCN 人工智能知識樹 v1.0

    摘要:貢獻者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節拆開,再按照知識點合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻者:飛龍版...

    劉厚水 評論0 收藏0
  • 成為數據科學家的入門項目

    摘要:基于大量的數據統計,網球是一種很好的預測類體育項目。數據科學家根據歷史數據和玩家信息來構建預測模型,并將結果與博彩公司的評估進行比較。目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數據科學項目。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/56c......

    Julylovin 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<