相關性計算

科學計算法：通過計算相關性係數r
#coding=utf-8
import numpy 
asnp
import pandas 
aspd
import matplotlib.pyplot 
asplt
import scipy.stats 
asstats
"兩者的關係為：當p<0.05(或者0.01
)的前提下，才可以參考r值，不能僅僅只看r值。
假設p=0.02，r=0.8
，認為兩組資料存在高度線性關係
假設p=0.5，r=0.8
，認為兩組資料不能進行相關性比較，更別提相關性是高還是低（此時的相關性表現可能是巧合）
|r|<0.3
0.3<|r|<0.5
低度線性關係
0.5<|r|<0.8
顯著線性關係
|r|>0.8
高度線性關係
"csv_file = "
data.txt
"csv_data = pd.read_csv(csv_file,sep="
\t",names=['
x','
y','
a','
b','
c','d'
] )#是dataframe資料格式
print(csv_data.head(),type(csv_data))
r,p =stats.pearsonr(csv_data.b,csv_data.c) # 相關係數和p值
print(
'相關係數r為 = %6.3f，p值為 = %6.3f
'%(r,p))
#用 pandas 庫相關係數。
print(csv_data.b.corr(csv_data.c))

機器如何計算「相關性」？

絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是這是乙個策略問題。比方說網易新聞，http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag，但不夠準確既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...

相關性計算

機器如何計算「相關性」？

機器如何計算「相關性」？

機器如何計算「相關性」？

相關推薦