describe和corr的用法詳解

2021-09-12 14:13:25 字數 895 閱讀 4470

1. data.describe() #基本統計量

count   195.000000  #數量

mean   2744.595385 #均值

std     424.739407 #標準差

min     865.000000 #最小值

25%    2460.600000 #下四分位

50%    2655.900000 #中位數

75%    3023.200000 #上四分位

max    4065.200000 #最大值

range  3200.200000 #極差max-min

var       0.154755 #變異係數 std/mean

dis     562.600000 #四分位間距 75%-25%

2.data.corr()

data.corr() #相關係數矩陣,即給出了任意兩個變數之間的相關係數

data.corr()[u'好'] #只顯示「好」與其他感**彩的相關係數

data[u'好'].corr(data[u'哭']) #兩個感**彩的相關係數

1.現象之間確實存在著數量上的依存關係.

2.現象之間數量上的關係是不確定、不嚴格的依存關係.

相關係數的絕對值在0.3以下是無直線相關,0.3以上是直線相關,0.3-0.5是低度相關,0.5-0.8是顯著相關(中等程度相關),0.8以上是高度相關.

相關性分位正相關(範圍是0.00-1.00)和負相關(範圍是-1.00-0.00),對這個相關性取絕對值一般絕對值大的相關性就越強,正相關是乙個增大另乙個也增大,負相關是乙個增大另乙個減小,做分類的時候一般找這個相關性不高的值來用,相關性不高說明兩個變數之間的影響不大,可以看做有的關係比較小。

pandas的describe 的輸出解釋

初學pandas的時候,對資料的一些引數是記不太得的。所以就來記錄下這些輸出的意義。在吳恩達的機器學習作業中,幾乎每個作業的步驟都是首先用pandas讀取資料,然後使用describe 方法進行檢視 就會得到如下 那麼我門來看看這個表達了什麼 由標題我們只看exam1,exam2代表兩個科目.來解釋...

Matlab的自相關函式corr

看上去語法也不難,直接運算不就好了麼?可是運算出來的結果自己卻搞不懂,因為自己沒有多少統計的知識,於是又去巴拉數學的材料,想去搞明白xcorr函式的原理或公式。最後還是去matlab論壇找到了自己想找的答案,這裡就來分析下matlab的互相關函式xcorr。matlab中的引數都是以陣列的形式儲存的...

對pandas中describe的理解

例如讀入乙個資料 df pd.read csv somedata.csv 在探索資料的時候,可以使用describe函式,describe函式預設只列印出來numerical data的資料,對於object型別的不列印。例如 df.describe 缺省會把具有數值型別的資料的資訊列印出來。當然也...