6.3排序式檢索 tf-idf權重計算

不知名網友發布于2021-11-29 10:50 / 3540人閱讀

摘要：提示信息檢索文檔評分詞項權重計算向量空間模型第三部分權重計算文章目錄權重計算權重文檔頻率計算舉例權重權重計算在進行排序時，除了詞項頻率之外，我們通常還需要詞項在整個文檔集中的頻率和評分。那么我們就希望給它更高的權重。

提示：
信息檢索：文檔評分-詞項權重計算-向量空間模型
?第三部分：tf-idf權重計算

文章目錄

tf-idf權重計算

tf-idf權重計算

在進行排序時，除了詞項頻率tf之外，我們通常還需要詞項在整個文檔集中的頻率和評分。
原因，當詞項A和詞項B在文檔1中tf相同時，但詞項B在文檔集中每個文檔中都有，而詞項A只存在于文檔1中，那么A和B需要有一個重要性的排序。

權重

罕見詞項要比常見詞項蘊含的信息要多很多，它出現的頻率越低，那么出現它的文檔就顯得相關性更高。那么我們就希望給它更高的權重。
那么對于常見詞而言，相對蘊含信息就相對偏少，給一個低的權重即可。

文檔頻率df

出現詞項的文檔數目

idf_t是反映信息量的一個指標。
用log₁₀(N/df_t)來限制N/df_t的作用

idf計算舉例

N=1000000

cf VS df

vs
文檔集頻率cf	t在整個文檔集中出現的次數
文檔頻率df	包含t的文檔數目

哪一個更適合查詢？即賦予更高的權重？
通過上圖，df(idf)的更適合做查詢

※tf-idf權重

GPU云服務器云服務器 tf-idf 菜單式云計算權重域名低權重

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/125634.html

自然語言處理真實項目實戰

摘要：在自然語言處理中，一個很重要的技術手段就是將文檔轉換為一個矢量，這個過程一般是使用這個庫進行處理的。自然語言處理中，一般來說，代表詞。自然語言預處理中，一個很重要的步驟就是將你收集的句子進行分詞，將一個句子分解成詞的列表。前言本文根據實際項目撰寫，由于項目保密要求，源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓，請勿以任何形式進行轉載。由于是日語項目，用到的分詞軟件等，在...

王巖威 2019-07-30 17:03 評論0 收藏0

發表評論

登陸后可評論

0條評論

不知名網友

男|高級講師

我要關注我要私信

TA的文章

Oracle數據庫4031故障分析

閱讀 3733·2023-01-11 11:02
Oceanbase新版本復合分區添加分區操作

閱讀 4244·2023-01-11 11:02
VRRP高可用

閱讀 3050·2023-01-11 11:02
Docker技術之構建鏡像和網絡模式解析

閱讀 5180·2023-01-11 11:02
?CISCO 4500 主引擎版故障處理

閱讀 4733·2023-01-11 11:02
大數據開發系列五：kafka& zookeeper 配置kerberos認證

閱讀 5533·2023-01-11 11:02
自研實時計算模塊介紹及運維數據應用場景實施

閱讀 5313·2023-01-11 11:02
DataX的限速與調優

閱讀 3986·2023-01-11 11:02

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

6.3排序式檢索 tf-idf權重計算

文章目錄

tf-idf權重計算

權重

文檔頻率df

idf計算舉例

cf VS df

※tf-idf權重

相關文章

自然語言處理真實項目實戰

發表評論

0條評論

不知名網友

男|高級講師

TA的文章

Oracle數據庫4031故障分析

Oceanbase新版本復合分區添加分區操作

VRRP高可用

Docker技術之構建鏡像和網絡模式解析

?CISCO 4500 主引擎版故障處理

大數據開發系列五：kafka& zookeeper 配置kerberos認證

自研實時計算模塊介紹及運維數據應用場景實施

DataX的限速與調優

最新活動