摘要:提示信息檢索文檔評分詞項權重計算向量空間模型第三部分權重計算文章目錄權重計算權重文檔頻率計算舉例權重權重計算在進行排序時,除了詞項頻率之外,我們通常還需要詞項在整個文檔集中的頻率和評分。那么我們就希望給它更高的權重。
提示:
信息檢索:文檔評分-詞項權重計算-向量空間模型
?第三部分:tf-idf權重計算
在進行排序時,除了詞項頻率tf之外,我們通常還需要詞項在整個文檔集中的頻率和評分。
原因,當詞項A和詞項B在文檔1中tf相同時,但詞項B在文檔集中每個文檔中都有,而詞項A只存在于文檔1中,那么A和B需要有一個重要性的排序。
罕見詞項要比常見詞項蘊含的信息要多很多,它出現的頻率越低,那么出現它的文檔就顯得相關性更高。那么我們就希望給它更高的權重。
那么對于常見詞而言,相對蘊含信息就相對偏少,給一個低的權重即可。
出現詞項的文檔數目
idft是反映信息量的一個指標。
用log10(N/dft)來限制N/dft的作用
N=1000000
vs | |
---|---|
文檔集頻率cf | t在整個文檔集中出現的次數 |
文檔頻率df | 包含t的文檔數目 |
哪一個更適合查詢?即賦予更高的權重?
通過上圖,df(idf)的更適合做查詢
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/125634.html
摘要:在自然語言處理中,一個很重要的技術手段就是將文檔轉換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓,請勿以任何形式進行轉載。由于是日語項目,用到的分詞軟件等,在...
閱讀 3733·2023-01-11 11:02
閱讀 4244·2023-01-11 11:02
閱讀 3050·2023-01-11 11:02
閱讀 5180·2023-01-11 11:02
閱讀 4733·2023-01-11 11:02
閱讀 5533·2023-01-11 11:02
閱讀 5313·2023-01-11 11:02
閱讀 3986·2023-01-11 11:02