SparkML之相關性分析

2021-07-11 01:29:33 字數 2211 閱讀 1207

相關性分析

相關性分析是考察兩個變數之間的線性關係的一種統計方法,用於衡量兩個變數因數的相關程度。但是,請記住,相關性不等於因果性。接下來結合下圖的txt格式的檔案來對相關性分析進行了解。

兩個重要的要素

從非常直觀的分析思路來說,比如分析身高和體重,我們會問個問題:.身高越高,體重是不是越重?問題細分為兩個方向:1,身高越高,體重越重還是越輕。2,身高每增加 1 ,體重又是增加多少或減少多少。這就是相關性的兩個重要要素:相關的方向和相關的強度。對於相關的方向很好理解,就是正相關、負相關還是無關。對於問題2,有不同的人產生了不同的 定義相關性強度的思想。

皮爾遜相關係數

皮爾遜相關係數全稱為:皮爾遜積矩相關係數(pearson product-moment correlation coefficient).該係數廣泛用於度量兩個變數之間的相關程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的乙個相似卻又稍有不同的想法演變而來.定義的公式如下:

下面通過matlab**來計算身高和體重的pearson係數:

function  coeff = pearsoncoeff(x,y)

% %輸入:計算數值串行x和y

if length(x)~=length(y)

error('輸入的序列長度不一')

enda = sum((x-mean(x)).*(y-mean(y)));%分子

b=sqrt(sum((x-mean(x)).^2)*sum((y-mean(y)).^2));%分母

coeff = a/b;

endfunction processing

filename = 'c:\users\andrew\desktop\child.txt';

delimiter = '\t';

formatspec = '%s%f%f%f%[^\n\r]';

fileid = fopen(filename,'r');

dataarray = textscan(fileid, formatspec, 'delimiter', delimiter, 'returnonerror', false);

fclose(fileid);

%a = dataarray;%name

high = dataarray;

weight = dataarray;

%score = dataarray;

%計算身高和體重的相關係數

corofhw = pearsoncoeff(high,weight)

end

得到:

corofhw =  0.6124

具體函式的定義,可以參考文獻1。下面對思想進行簡單闡述:a 的身高149,在身高這一列秩為1(最矮)。同理後面的引數就是所說變數的秩。spearman等級相關係數(rho)如下:

其中累加di

平方就是a身高的秩減去體重的秩平方加上b身高的秩減去體重的秩平方。。。。。。。

發現spearman等級相關係數,和具體的數值無關,之和其中的秩有關係,它適用於不能準確測量指標值

而只能以嚴重程度,名詞先後等等級引數來確定之間的相關程度

。通過計算可以得到:0.7395

sparkmllib計算相關係數:

packagebasic

importorg.apache.spark.mllib.linalg.vectors

importorg.apache.spark.mllib.stat.statistics

importorg.apache.spark.

/*** created by legotime on 2016/4/8.

*/objectcorrelations

}

完畢參考文獻

1:感謝

spearman相關性分析 相關性分析

r語言常用函式 cor 預設結果為矩陣 cor mydat,use method use 缺失值的處理,method 處理方法 cor x,y 可以計算非方形矩陣,x y分別為2個矩陣,相同的行數 cor.test x,y,alternative method x y為檢驗相關性的變數 librar...

相關性分析

1.圖表 折線圖 散點圖2.協方差及協方差矩陣協方差 用來衡量兩個變數的總體誤差。只能對兩組資料進行分析 3.相關係數 correlation coefficience 可以對相關的密切程度進行度量弊端 因為沒有模型,所以無法進行 正態性檢驗 t檢驗 假設檢驗 異常值檢驗 箱線圖法 q1 位於25 ...

spss相關性分析 SPSS篇 相關性分析

昨天跟大家 了如何使用spss進行方差分析,知道了方差分析的原理以及最後的結果如何解讀。今天跟大家來分享的是另外一種比較常見的分析 相關性分析。相關分析是研究兩個或兩個以上處於同等地位的隨機變數間的相關關係的統計分析方法。比如我們在研究人的身高體重之間關係的時候,我們就會用到相關性分析。說到這裡,大...