摘要:余弦相似度觀點等價于夾角遞減排序區間內,是單調遞減函數。長度歸一化后余弦相似度計算舉例詞項頻率詞項頻率取對數長度歸一化計算文檔詞項頻率關聯表如下文檔把表加入上述表之中,分別計算和其他文檔的值,那么就能得出,其他文檔與的相關度
提示:
信息檢索:文檔評分-詞項權重計算-向量空間模型
?第四部分:向量空間模型
二值關聯矩陣:詞項-文檔
詞頻矩陣:詞頻-文檔
權重是前面的tf-idf權重:
|V|維向量空間,每一維都對應詞項,文檔是空間的點或向量。
維度相當大,對于互聯網來說,甚至達到千萬維或更高。
向量空間非常稀疏,幾乎都是0.
■關鍵思路1:對于查詢做同樣的處理,即將查詢表示成同一高維空間的向量
■關鍵思路2:在向量空間內根據queries與文檔向量間的距離來排序
計算兩個向量終點之間的距離:
不能采用歐氏距離,從上圖分析,歐氏空間對距離十分敏感,q與d2歐氏距離很遠,但它們實際分布很接近。
就是把文檔向量,變成單位向量唄,長度就不會影響相關性比較了,上面的文檔d和d‘就相等了。同一個向量表示就可以了
L2范數:
向量除以L2范數就是長度歸一化。
文檔長度差異就不會影響到相關性的比較了。
觀點等價于夾角遞減排序
[0,180]區間內,cosine是單調遞減函數。
cos(q,d) q,d的余弦相關性等價于q,d夾角余弦值。
長度歸一化后:
詞項頻率tf—>詞項頻率tf取對數—>長度歸一化—>計算
文檔-詞項頻率tf關聯表如下:文檔(sas,pap,wh)
把query表加入上述表之中,分別計算query和其他文檔的cosine值,那么就能得出,其他文檔與query的相關度
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/125633.html
摘要:在近鄰推薦中,最常用的相似度是余弦相似度。這就是由于余弦相似度被向量長度歸一化后的結果。用余弦相似度計算出來,兩個用戶的相似度達到。余弦相似度適用于評分數據,杰卡德相似度適合用于隱式反饋數據。 今天,我們來聊聊協同過濾中的相似度計算方法有哪些。相似度的本質推薦系統中,推薦算法分為兩個門派,一個是機器學習派,另一個就是相似度門派。機器學習派是后起之秀,而相似度派則是泰山北斗,以致撐起來推...
摘要:在自然語言處理中,一個很重要的技術手段就是將文檔轉換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓,請勿以任何形式進行轉載。由于是日語項目,用到的分詞軟件等,在...
摘要:文和,創意實驗室創意技術專家在機器學習和計算機視覺領域,姿勢預測或根據圖像數據探測人體及其姿勢的能力,堪稱最令人興奮而又最棘手的一個話題。使用,用戶可以直接在瀏覽器中運行機器學習模型,無需服務器。 文 / ?Jane Friedhoff 和 Irene Alvarado,Google 創意實驗室創意技術專家在機器學習和計算機視覺領域,姿勢預測或根據圖像數據探測人體及其姿勢的能力,堪稱最令人興...
摘要:實現參考鏈接計算各類距離關于機器學習距離的理解機器學習中的相似性度量如何通俗易懂地理解皮爾遜相關系數數學應用 8種相似度度量方式的原理及實現 歐氏距離(Euclidean Distance) 歐氏距離(也稱歐幾里得度量)指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離) showImg(https://raw.githubusercontent.com/ele...
閱讀 3733·2023-01-11 11:02
閱讀 4243·2023-01-11 11:02
閱讀 3049·2023-01-11 11:02
閱讀 5180·2023-01-11 11:02
閱讀 4733·2023-01-11 11:02
閱讀 5532·2023-01-11 11:02
閱讀 5312·2023-01-11 11:02
閱讀 3986·2023-01-11 11:02