摘要:如標題,與詞集詞袋模型都是數據預處理中常用的算法,這里展示一下這兩種算法的聯合應用。我們再回過頭來看看的缺陷,其中的第二點和第三點以相反角度來看都有助于我們對詞袋模型中特征向量的優化這個需要各位好好理解一下。
如標題,TF-IDF與詞集詞袋模型都是數據預處理中常用的算法,這里展示一下這兩種算法的聯合應用。
一. 詞集與詞袋模型這個算法的主要作用也就是對文本做單詞切分,有點從一篇文章里提取關鍵詞這種意思,旨在用向量來描述文本的主要內容,其中包含了詞集與詞袋兩種。
詞集模型:單詞構成的集合,集合中每個元素只有一個,即詞集中的每個單詞都只有一個。
詞袋模型:如果一個單詞在文檔中出現不止一次,就統計其出現的次數,詞袋在詞集的基礎上加入了頻率這個維度,使統計擁有更好的效果,通常我們在應用中都選用詞袋模型。
python代碼示例使用xss攻擊語句來測試詞袋模型的效果
from sklearn.feature_extraction.text import CountVectorizer #詞袋模型,這里的min_df取值為3,即該向量在整個payload中至少出現了三次 vec=CountVectorizer(min_df=3,ngram_range=(1,1)) content=[ "alert(1)X", "">
可以看到,我們得到了詞袋模型中詞匯的tf-idf值,值越高說明該詞區分每條語句的效果越好。
但我們做特征工程追求的是泛化能力,即尋找能更好的概括整體文本的特征的詞匯,與tf-idf追求的結果恰恰相反,所以我們可以看到像alert、script這種在安全從業者看來明顯的攻擊特征在上面結果中的權值反而很低。
我們再回過頭來看看tf-idf的缺陷,其中的第二點和第三點以相反角度來看都有助于我們對詞袋模型中特征向量的優化(這個需要各位好好理解一下)。
那么我們正好可以利用這個特征來判斷詞袋模型中向量的泛化效果
即:tf-idf值越高其泛化能力越低,也就越不適合作為我們的特征向量。
從上面的結果中我們可以看出來,script、alert這兩個向量相比于其它能更好的反映出我們整體攻擊語句的特征,符合我們人工判斷的結果。而在script和alert兩者中alert顯然泛化效果又更加的優秀。
兩者結合使用,我們就可以自動化的從大文本中提取優質的特征向量,以減少人工干預,大大降低特征工程中的成本。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/40920.html
摘要:詞袋模型詞袋模型簡稱,所謂的詞袋模型是一種用機器學習算法對文本進行建模時表示文本數據的方法。再進行一些其他的特征工程后,就可以將數據帶入機器學習算法進行分類聚類了。總結下詞袋模型的三部曲分詞,統計修訂詞特征值與標準化。 詞袋模型 詞袋模型(Bag of Words,簡稱BoW),所謂的詞袋模型是一種用機器學習算法對文本進行建模時表示文本數據的方法。 詞袋模型假設我們不考慮文本中詞與詞之...
摘要:在自然語言處理詞袋模型與向量化中我們講到在文本挖掘的預處理中,向量化之后一般都伴隨著的處理,那么什么是,為什么一般我們要加這一步預處理呢這里就對的原理做一個總結。 TF-IDF 在自然語言處理——詞袋模型與向量化中我們講到在文本挖掘的預處理中,向量化之后一般都伴隨著TF-IDF的處理,那么什么是TF-IDF,為什么一般我們要加這一步預處理呢?這里就對TF-IDF的原理做一個總結。 文本...
摘要:全棧數據之門前言自強不息,厚德載物,自由之光,你是我的眼基礎,從零開始之門文件操作權限管理軟件安裝實戰經驗與,文本處理文本工具的使用家族的使用綜合案例數據工程,必備分析文件探索內容探索交差并補其他常用的命令批量操作結語快捷鍵,之門提高效率光 showImg(https://segmentfault.com/img/bVK0aK?w=350&h=350); 全棧數據之門 前言 自強不息,...
閱讀 3476·2021-11-19 09:40
閱讀 1491·2021-10-13 09:41
閱讀 2655·2021-09-29 09:35
閱讀 2710·2021-09-23 11:21
閱讀 1693·2021-09-09 11:56
閱讀 829·2019-08-30 15:53
閱讀 844·2019-08-30 15:52
閱讀 598·2019-08-30 12:47