国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

6.4向量空間模型,余弦相似度計算

不知名網友 / 1641人閱讀

摘要:余弦相似度觀點等價于夾角遞減排序區間內,是單調遞減函數。長度歸一化后余弦相似度計算舉例詞項頻率詞項頻率取對數長度歸一化計算文檔詞項頻率關聯表如下文檔把表加入上述表之中,分別計算和其他文檔的值,那么就能得出,其他文檔與的相關度

提示:
信息檢索:文檔評分-詞項權重計算-向量空間模型
?第四部分:向量空間模型


向量空間模型

關聯矩陣

二值關聯矩陣:詞項-文檔

詞頻矩陣:詞頻-文檔


權重是前面的tf-idf權重

文檔表示成向量

|V|維向量空間,每一維都對應詞項,文檔是空間的點或向量。
維度相當大,對于互聯網來說,甚至達到千萬維或更高。
向量空間非常稀疏,幾乎都是0.

Queries表示成向量

■關鍵思路1:對于查詢做同樣的處理,即將查詢表示成同一高維空間的向量
■關鍵思路2:在向量空間內根據queries與文檔向量間的距離來排序

向量相似度計算

歐式距離?


計算兩個向量終點之間的距離:
不能采用歐氏距離,從上圖分析,歐氏空間對距離十分敏感,q與d2歐氏距離很遠,但它們實際分布很接近。

利用夾角代替距離

文檔長度歸一化

就是把文檔向量,變成單位向量唄,長度就不會影響相關性比較了,上面的文檔d和d‘就相等了。同一個向量表示就可以了

L2范數:

向量除以L2范數就是長度歸一化。
文檔長度差異就不會影響到相關性的比較了。

余弦相似度(query,document)

觀點等價于夾角遞減排序

[0,180]區間內,cosine是單調遞減函數。


cos(q,d) q,d的余弦相關性等價于q,d夾角余弦值。

長度歸一化后:

※余弦相似度計算舉例

詞項頻率tf—>詞項頻率tf取對數—>長度歸一化—>計算

文檔-詞項頻率tf關聯表如下:文檔(sas,pap,wh)


把query表加入上述表之中,分別計算query和其他文檔的cosine值,那么就能得出,其他文檔與query的相關度

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/125633.html

相關文章

  • 推薦系統01--余弦相似

    摘要:在近鄰推薦中,最常用的相似度是余弦相似度。這就是由于余弦相似度被向量長度歸一化后的結果。用余弦相似度計算出來,兩個用戶的相似度達到。余弦相似度適用于評分數據,杰卡德相似度適合用于隱式反饋數據。 今天,我們來聊聊協同過濾中的相似度計算方法有哪些。相似度的本質推薦系統中,推薦算法分為兩個門派,一個是機器學習派,另一個就是相似度門派。機器學習派是后起之秀,而相似度派則是泰山北斗,以致撐起來推...

    cncoder 評論0 收藏0
  • 自然語言處理真實項目實戰

    摘要:在自然語言處理中,一個很重要的技術手段就是將文檔轉換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓,請勿以任何形式進行轉載。由于是日語項目,用到的分詞軟件等,在...

    王巖威 評論0 收藏0
  • Move Mirror:使用 TensorFlow.js 在瀏覽器中預測姿勢之 AI 實驗

    摘要:文和,創意實驗室創意技術專家在機器學習和計算機視覺領域,姿勢預測或根據圖像數據探測人體及其姿勢的能力,堪稱最令人興奮而又最棘手的一個話題。使用,用戶可以直接在瀏覽器中運行機器學習模型,無需服務器。 文 / ?Jane Friedhoff 和 Irene Alvarado,Google 創意實驗室創意技術專家在機器學習和計算機視覺領域,姿勢預測或根據圖像數據探測人體及其姿勢的能力,堪稱最令人興...

    MiracleWong 評論0 收藏0
  • 8種相似量方式的原理及實現

    摘要:實現參考鏈接計算各類距離關于機器學習距離的理解機器學習中的相似性度量如何通俗易懂地理解皮爾遜相關系數數學應用 8種相似度度量方式的原理及實現 歐氏距離(Euclidean Distance) 歐氏距離(也稱歐幾里得度量)指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離) showImg(https://raw.githubusercontent.com/ele...

    lewif 評論0 收藏0

發表評論

0條評論

不知名網友

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<