相關性計算

2022-06-28 16:30:19 字數 926 閱讀 6682

科學計算法:通過計算相關性係數r

#coding=utf-8

import numpy

asnp

import pandas

aspd

import matplotlib.pyplot

asplt

import scipy.stats

asstats

"兩者的關係為:當p<0.05(或者0.01

)的前提下,才可以參考r值,不能僅僅只看r值。

假設p=0.02,r=0.8

,認為兩組資料存在高度線性關係

假設p=0.5,r=0.8

,認為兩組資料不能進行相關性比較,更別提相關性是高還是低(此時的相關性表現可能是巧合)

|r|<0.3

0.3<|r|<0.5

低度線性關係

0.5<|r|<0.8

顯著線性關係

|r|>0.8

高度線性關係

"csv_file = "

data.txt

"csv_data = pd.read_csv(csv_file,sep="

\t",names=['

x','

y','

a','

b','

c','d'

] )#是dataframe資料格式

print(csv_data.head(),type(csv_data))

r,p =stats.pearsonr(csv_data.b,csv_data.c) # 相關係數和p值

print(

'相關係數r為 = %6.3f,p值為 = %6.3f

'%(r,p))

#用 pandas 庫相關係數。

print(csv_data.b.corr(csv_data.c))

機器如何計算「相關性」?

絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...

機器如何計算「相關性」?

絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...

機器如何計算「相關性」?

絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...