相關係數簡記

2021-10-19 08:31:25 字數 2223 閱讀 7117

1.連續資料,正態分佈,線性關係,用pearson相關係數是最恰當,當然用spearman相關係數也可以,效率沒有pearson相關係數高。

2.上述任一條件不滿足,就用spearman相關係數,不能用pearson相關係數。

3.兩個定序測量資料之間也用spearman相關係數,不能用pearson相關係數。

pearson使用方法:scipy.stats.pearsonr( x, y )

spearman使用方法:scipy.stats.spearmanr(a, b=none, axis=0, nan_policy=『propagate』)

但是 上述二者只能觀察是否線性相關。而互資訊發可以觀察非線性相關。

互資訊:

pearson和spearman相關係數存在乙個問題是一般情況下只考慮了線性相關性,對非線性的變數相關性效果一般(源於計算協方差時的線性計算)。另一種互資訊的方法解決了這種問題,互資訊通過計算兩個變數之間對整個熵的情況來說明這一問題,互資訊指的是兩個隨機變數之間的關聯程度,即給定乙個隨機變數後,另乙個隨機變數不確定性的削弱程度,因而互資訊取值最小為0,意味著給定乙個隨機變數對確定一另乙個隨機變數沒有關係,最大取值為隨機變數的熵,意味著給定乙個隨機變數,能完全消除另乙個隨機變數的不確定性。其公式如下。

原來我對x有些不確定(不確定性為h(x)),告訴我y後我對x不確定性變為h(x|y), (建議有數學背景的推倒一下公式)這個不確定性的減少量就是x,y之間的互資訊i(x;y)=h(x)-h(x|y)。互資訊通過利用資訊熵的方式來對特徵之間的相關性進行衡量。克服了pearson計算線性相關性的缺陷。但同時互資訊法計算相關性帶來的計算量的複雜度。

互資訊食用方法:sklearn.metrics.normalized_mutual_info_score

定類變數

變數的一種,根據定性的原則區分總體各個案類別的變數。定類變數的值只能把研究物件分類,也即只能決定研究物件是同類抑或不同類,具有=與≠的數學性質。例如性別區分為男性和女性兩類;出生地區分為農村、城市、城鎮三類;民族背景區分為漢、蒙、回、苗、壯、藏、維吾爾等;婚姻狀況區分為未婚、已婚、分居、離婚、喪偶等類。這些變數的值,只能區別異同,屬於定類層次。設計定類變數的各個類別時,要注意兩個原則。乙個是類與類之間要互相排斥,也即每個研究物件只能歸入一類;另乙個是所有研究物件均有歸屬,不可遺漏。例如性別分為男女兩類,它既概括了人的性別的全部類別,同時類別之間又具有排斥性。

定序變數

變數的一種,區別同一類別個案中等級次序的變數。定序變數能決定次序,也即變數的值能把研究物件排列高低或大小,具有>與<的數學特質。它是比定類變數層次更高的變數,因此也具有定類變數的特質,即區分類別(=,≠)。例如文化程度可以分為大學、高中、初中、小學、文盲;工廠規模可以分為大、中、小;年齡可以分為老、中、青。這些變數的值,既可以區分異同,也可以區別研究物件的高低或大小。但是,各個定序變數的值之間沒有確切的間隔距離。比如大學究竟比高中高出多少,大學與高中之間的距離和初中與小學之間的距離是否相等,通常是沒有確切的尺度來測量的。定序變數在各個案上所取的變數值只具有大於或小於的性質,只能排列出它們的順序,而不能反映出大於或小於的數量或距離。

定距變數

也是變數的一種,區別同一類別個案中等級次序及其距離的變數。它除了包括定序變數的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數學特質。但是,定距變數沒有乙個真正的零點。例如,攝氏溫度這一定距變數說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度並不是沒有溫度。又比如調查數個地區的工人佔全部勞動人口的比率時,發現甲、乙,丙、丁、戊五個地區的比率分別是2%、10%、35%、20%、10%。甲區與丙區相差33%,丙區與丁區相差15%。這也是乙個定距變數。定距變數各類別之間的距離,只能用加減而不能用乘除或倍數的形式來說明它們之間的關係。

定比變數

也是區別同一類別個案中等級次序及其距離的變數。定比變數除了具有定距變數的特性外,還具有乙個真正的零點,因而它具有乘與除(×、÷)的數學特質。例如年齡和收入這兩個變數,固然是定距變數,同時又是定比變數,因為其零點是絕對的,可以作乘除的運算。如a月收入是60元,而b是30元,我們可以算出前者是後者的兩倍。智力商數這個變數是定距變數,但不是定比變數,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;同時,由於其零點是不固定的,即使a是140分而b是70分,我們也不能說前者的智力是後者的兩倍,只能說兩者相差70分。因為0值是不固定的,如果將其向上移高20分,則a的智商變為120分而b變成50分,兩者的相差仍是70分,但a卻是b的2.4倍,而不是原先的兩倍了。攝氏溫度這一變數也如此。定比變數是最高測量層次的變數。

皮爾森相關係數 皮爾森相關係數的計算

在 變數關係大揭秘 一 我們提到了皮爾森相關係數r 先來兩個散點圖,左圖中x和y不相關,右圖中x和y高度正相關,差別在哪?讓我們在左右兩圖各畫乙個 田 字,田 字中心的座標是 x的平均值,y的平均值 比較左右兩圖,我們知道 當散點在a b c d均勻分布,x和y不相關 當a和c的點越多,並且b和d的...

皮爾森相關係數

皮爾森相關係數 pearson correlation coefficient 也稱皮爾森積矩相關係數 pearson product moment correlation coefficient 是一種線性相關係數。皮爾森相關係數是用來反映兩個變數線性相關程度的統計量。相關係數用r表示,其中n為樣...

Pearson 相關係數

1 pearson s r,稱為皮爾遜相關係數 pearson correlation coefficient 用來反映兩個隨機變數之間的線性相關程度。2 pearson是乙個介於 1 和1 之間的值。3 當兩個變數的線性關係增強時,相關係數趨於1或 1 4 當乙個變數增大,另乙個變數也增大時,表明...