相似度度量2 皮爾森相關係數和斯皮爾曼相關性

2021-07-25 02:44:47 字數 441 閱讀 6664

1)皮爾森相關係數等於兩個變數的協方差除於兩個變數的標準差。

基於皮爾森相關係數的相似度有兩個缺點:

(1) 沒有考慮(take into account)使用者間重疊的評分項數量對相似度的影響;

(2) 如果兩個使用者之間只有乙個共同的評分項,相似度也不能被計算

2)斯皮爾曼相關性

可以理解為是排列後(rank)使用者喜好值之間的pearson相關度。《mahout in action》中有這樣的解釋:假設對於每個使用者,我們找到他最不喜歡的物品,重寫他的評分值為「1」;然後找到下乙個最不喜歡的物品,重寫評分值為「2」,以此類推。然後我們對這些轉換後的值求pearson相關係數,這就是spearman相關係數。

斯皮爾曼相關度的計算捨棄了一些重要資訊,即真實的評分值。但它保留了使用者喜好值的本質特性——排序(ordering),它是建立在排序(或等級,rank)的基礎上計算的。

皮爾森相關係數 皮爾森相關係數的計算

在 變數關係大揭秘 一 我們提到了皮爾森相關係數r 先來兩個散點圖,左圖中x和y不相關,右圖中x和y高度正相關,差別在哪?讓我們在左右兩圖各畫乙個 田 字,田 字中心的座標是 x的平均值,y的平均值 比較左右兩圖,我們知道 當散點在a b c d均勻分布,x和y不相關 當a和c的點越多,並且b和d的...

皮爾森相關係數

皮爾森相關係數 pearson correlation coefficient 也稱皮爾森積矩相關係數 pearson product moment correlation coefficient 是一種線性相關係數。皮爾森相關係數是用來反映兩個變數線性相關程度的統計量。相關係數用r表示,其中n為樣...

模型的自相關係數計算 自相關係數和偏相關係數

我們知道在時間序列分析中,常用的模型有arma ar和ma模型。建立模型的前期,需要確定階數,例如ar p 模型的引數p。這時就需要根據時間序列的acf和pacf函式值來確定,然後建立模型,最後需要檢驗模型的效果。注意 模型的acf是根據定義求值然後建立acf圖,再確定階數。公式1 k是間隔的階數 ...