摘要:至于為什么選取樸素貝葉斯,很大一個原因是因為樸素貝葉斯在垃圾郵件分類上有不錯的效果,而確定一個句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。
前言
前段時間更新了一系列基礎的機器學習算法,感覺有些無味,而且恰好那時買了了國內某公司的云服務器,就打算部署一套文本處理的WEB API,順別應用一下之前學習到的機器學習算法。(文末放出地址)
本文不會涉及過于復雜的數學原理,主要講述如何提取特征與調用模型。
實現了的api分詞
訪問/cut?sentence=&method=,其中sentence參數指明需要分詞的句子,method參數指明分詞的方式。
統計詞頻
訪問/count?sentence=&=method=,其中的參數說明和分詞的api一致。
情感分析
訪問/count?sentence=,因為目前是針對句子的,因此sentence的范圍限制了在1~200詞之間。
本文重點講述情感分析的實現。
情感分析的實現情感分析的應用是多種多樣的,往大了說,可以用于國家對某個熱點進行輿情監控,選舉的選情分析,電商對產品的售后意向調查,往小了說還可以寫一個腳本對你女神的微博進行關心,在女神不開心的時候及時送上關心。
至于情感分析的實現,在學術論文上均有提及,大致過程都可以分為提取情感極性詞,將語句轉化為向量,扔進你訓練好的模型里
在這里我們針對實際情況做出一定的修改,提取情感極性詞,必然是需要詞典來參考的,雖然各大語言機構都有公開的詞典,,但并不建議使用這些詞典。其中一個原因是因為這些公開的詞典太過書面化,和“禮貌”,不太接近日常生活。因此這這里我采用的是自定義詞典,另外一點是,在提取關鍵詞部分不僅僅是提取情感相關的詞語,同時也使用其他日常用語,比如草泥馬,雖然不像開心,傷心這樣的情感極性詞,但草泥馬顯然具有明確的情感偏向。
值得說明的是,我們既然在提取特征詞的時候考慮到平常的詞語,同樣也就意味這一些亂七八糟的詞語會混進來,所以我們在提取完特征詞后,同時計算它們的詞頻,只取頻率排名的前20%,(當然這個數字可以根據自己需要調整)。
挑選的出來的特征詞就構成了[word1,word2,word3……],同時檢測訓練樣本,若樣本中出現了特征詞,則該樣本的特征向量對應位置置1,否則為0。
構成特征向量后,我選取的算法是樸素貝葉斯,關于其原理,可以查看我支持的專欄機器學習從入門到放棄之樸素貝葉斯。至于為什么選取樸素貝葉斯,很大一個原因是因為樸素貝葉斯在垃圾郵件分類上有不錯的效果,而確定一個句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。
在sklearn中,只要添加如下代碼即可。
from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() gnb = gnb.fit(feature, label) result = gnb.predice(test)
上述api中涉及的分詞操作均是使用 結巴分詞 完成。
測試效果下面測試用例又黃又暴力,未成年觀眾在家長的陪同下觀看。
開源代碼WEB API測試頁面dudulu
目前只有情感分析的api的測試頁面
后話dudulu
不得不說使用了必應的背景圖來做自己網站的背景圖效果相當不錯。
希望大家多多調戲(目前語料只支持中文),后端的日志會記錄下測試記錄(算是收集數據),我會周期性上去更新模型,效果理論上會越變越好。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38185.html
摘要:貢獻者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節拆開,再按照知識點合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻者:飛龍版...
摘要:基于大量的數據統計,網球是一種很好的預測類體育項目。數據科學家根據歷史數據和玩家信息來構建預測模型,并將結果與博彩公司的評估進行比較。目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數據科學項目。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/56c......
閱讀 2847·2021-09-27 13:35
閱讀 624·2021-09-23 11:22
閱讀 2892·2019-08-30 15:54
閱讀 1612·2019-08-29 16:27
閱讀 2468·2019-08-29 15:05
閱讀 2350·2019-08-23 18:11
閱讀 3523·2019-08-23 16:32
閱讀 2941·2019-08-23 14:56