国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

6.3排序式檢索 tf-idf權重計算

不知名網友 / 3540人閱讀

摘要:提示信息檢索文檔評分詞項權重計算向量空間模型第三部分權重計算文章目錄權重計算權重文檔頻率計算舉例權重權重計算在進行排序時,除了詞項頻率之外,我們通常還需要詞項在整個文檔集中的頻率和評分。那么我們就希望給它更高的權重。

提示:
信息檢索:文檔評分-詞項權重計算-向量空間模型
?第三部分:tf-idf權重計算


tf-idf權重計算

在進行排序時,除了詞項頻率tf之外,我們通常還需要詞項在整個文檔集中的頻率和評分。
原因,當詞項A和詞項B在文檔1中tf相同時,但詞項B在文檔集中每個文檔中都有,而詞項A只存在于文檔1中,那么A和B需要有一個重要性的排序。

權重

罕見詞項要比常見詞項蘊含的信息要多很多,它出現的頻率越低,那么出現它的文檔就顯得相關性更高。那么我們就希望給它更高的權重。
那么對于常見詞而言,相對蘊含信息就相對偏少,給一個低的權重即可。

文檔頻率df

出現詞項的文檔數目

idft是反映信息量的一個指標。
用log10(N/dft)來限制N/dft的作用

idf計算舉例

N=1000000

cf VS df

vs
文檔集頻率cft在整個文檔集中出現的次數
文檔頻率df包含t的文檔數目

哪一個更適合查詢?即賦予更高的權重?
通過上圖,df(idf)的更適合做查詢

※tf-idf權重




文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/125634.html

相關文章

  • 自然語言處理真實項目實戰

    摘要:在自然語言處理中,一個很重要的技術手段就是將文檔轉換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓,請勿以任何形式進行轉載。由于是日語項目,用到的分詞軟件等,在...

    王巖威 評論0 收藏0

發表評論

0條評論

不知名網友

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<