国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

TF-IDF、詞袋模型與特征工程

xialong / 3608人閱讀

摘要:如標題,與詞集詞袋模型都是數據預處理中常用的算法,這里展示一下這兩種算法的聯合應用。我們再回過頭來看看的缺陷,其中的第二點和第三點以相反角度來看都有助于我們對詞袋模型中特征向量的優化這個需要各位好好理解一下。

如標題,TF-IDF與詞集詞袋模型都是數據預處理中常用的算法,這里展示一下這兩種算法的聯合應用。

一. 詞集與詞袋模型

這個算法的主要作用也就是對文本做單詞切分,有點從一篇文章里提取關鍵詞這種意思,旨在用向量來描述文本的主要內容,其中包含了詞集與詞袋兩種。

詞集模型:單詞構成的集合,集合中每個元素只有一個,即詞集中的每個單詞都只有一個。

詞袋模型:如果一個單詞在文檔中出現不止一次,就統計其出現的次數,詞袋在詞集的基礎上加入了頻率這個維度,使統計擁有更好的效果,通常我們在應用中都選用詞袋模型。

python代碼示例

使用xss攻擊語句來測試詞袋模型的效果

from sklearn.feature_extraction.text import CountVectorizer
#詞袋模型,這里的min_df取值為3,即該向量在整個payload中至少出現了三次
vec=CountVectorizer(min_df=3,ngram_range=(1,1))
content=[
    "alert(1)X",
    "">