使用者相似性度量

2021-06-27 20:09:46 字數 1822 閱讀 5435

pearsoncorrelationsimilarity(皮爾遜相關係數)

原理:度量兩個意義對應數列之間的線性相關程度,即度量兩個數列中數字一起增大或一起減小的可能性。

場景:用於度量兩個使用者之間的相似性,度量兩個使用者針對同一物品的偏好值變化趨勢的一致性。

優點:結果直觀。

缺點:沒有考慮到兩個使用者同時給出偏好值的數目。解決辦法:引入權重,即加權。

例如,兩個使用者如果同時對200件物品給出偏好值,可能更比兩個使用者僅同時對2件物品給出偏好值更相似。

mahout in action 中1和5(同時對三件物品給出偏好值)的係數卻比1和4(同時對兩件物品給出偏好值)的相似度係數低

uncenteredcosinesimilarity(非中心化余弦距離相似度。中心化余弦距離相似度即皮爾遜相關係數)

原理:非中心化 的余弦距離。多維空間中兩點與指定點之間的夾角,夾角越小越相似

缺點:沒有考慮到兩點之間的空間距離。例如,兩個點之間的夾角度數較小,但空間距離較大,

其算出來的相似度會比夾角大而空間距離更小的兩個點的相似度更高。

tanimotocoefficientsimilarity(谷本距離相似度)

原理:兩個集合的交集閉上兩個集合的並集(jaccard係數)

場景:當偏好值為布林型別或沒有偏好值時使用

loglikelihoodsimilarity(對數似然比)

原理:類似於基於谷本係數的相似度。可以理解為兩個使用者發生重疊的非偶然概率。

場景:不考慮具體偏好值的度量方法。

例如:假如兩個使用者都看過上百部電影,其中只有兩部是共同看過的,則認為相似度非常小。

假如兩個使用者看過的電影數都非常少,其中有兩部是共同看過的,則兩者的相似度就較高,重疊佔的比重大。

對數似然比度量的是判斷兩個使用者口味不相似的不可能性有多大,值越大,兩個使用者越相似。

優點:比谷本係數的相似度更智慧型。

spearmancorrelationsimilarity(斯皮爾曼相關係數)

原理:皮爾遜相關係數的乙個變體,它是將原始的偏好值進行排名,然後再使用皮爾遜相關係數演算法。

euclideandistancesimilarity(歐式距離相似度)

原理:利用歐式距離定義的相似度:s=1/(1+d)

缺點:基於同乙個物品得到的結果不可靠

cityblocksimilarity(曼哈頓距離相似度)

原理:類似於歐式距離,用於多維資料空間距離的測度

優點:比歐式距離計算量少,更智慧型。

總結:適用於帶有偏好值的資料:

pearsoncorrelationsimilarity、

uncenteredcosinesimilarity、

spearmancorrelationsimilarity、

euclideandistancesimilarity、

cityblocksimilarity

適用於無偏好值的資料:

tanimotocoefficientsimilarity、

loglikelihoodsimilarity、

cityblocksimilarity

**:

/***

* 使用者相似度元件

* @param type

* @param datamodel

* @return

* @throws tasteexception

*/public usersimilarity usersimilaritymodel(similarity type,datamodel datamodel) throws tasteexception

}

相似性度量

二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...

相似性度量

一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...

相似性度量 zz

在模式識別 計算機視覺等多個領域,都會涉及到相似性的度量這一問題,用來衡量不同物件間的差異性 距離 或相似性 相似度 這裡的物件可以是網頁,影象,也可以是文字,集合,但最終在數學上都可以表示為向量或者向量的集合。對於不同大小的向量集合的相似性度量問題,這裡先不展開討論。對於相同長度的向量大小的度量,...