機器學習 相關分析與回歸分析基礎

2022-04-03 02:22:22 字數 3110 閱讀 3210

在研究變數關係的過程中,通常對於被研究的變數,稱為因變數,也稱為被解釋變數,一般用y表示。其它用來說明或解釋因變數變化的變數稱為自變數,也稱為解釋變數,用x表示。自變數可以有乙個,也可以有多個。例如,如果我們想**銷售收入,則銷售收入就是我們這次研究的因變數,如果我們是通過廣告費的支出來**銷售收入,則廣告費支出就是自變數。如果**銷售收入時,還要考慮銷售**或銷售人員的數量的影響,那麼,銷售**或銷售人員的數量這兩個因素也都稱為自變數,即有兩個自變數。

在統計學中,依據變數與變數之間的聯絡或依存的型別不同,一般將變數之間的關係劃分為函式關係和相關關係兩種。

1.相關關係

所謂相關關係,是指變數的數值之間存在著非嚴格的依存關係。就是說,當乙個變數或幾個變數取定乙個數值時,另乙個對應變數的數值是不確定的。但是,該變數的數值卻是隨著前述變數的所取數值而發生一定的變化規律。例如,人的身高與體重之間的關係就屬於相關關係。就全社會而言,對於具有同樣身高的人,體重的數值未必相同。也就是說,同樣的身高數值對應的體重數值是不確定的。但是體重數值卻是隨著「身高越高,體重越重」這個一般的規律而變化。因此兩者是一種相關關係。當給定乙個房屋面積時,房屋的出租**是不確定的。但是,出租**卻是依據房屋面積的大小而變化。

如果變數之間存在相關關係,可能包含以下幾種情況:

1、變數之間存在著因果關係。例如,產量與單位成本的相關關係就是一種因果關係,其中產量變動在前是原因,單位成本的變動在後是結果。糧食的產量與施肥量的關係也是一種因果關係,施肥量是原因,產量是結果。

2、變數之間存在著相互依存的關係。例如,乙個城市的貨運量與該城市的國內生產總值具有相關關係,但在貨運量與國內生產總值的變動中,很難確定哪乙個是原因哪乙個是結果,兩個變數之間是相互依存的關係。

3、變數之間只是存在著數值的統計關係,或者說是虛假關係。例如,有人將某段時間的香菸銷售量與人口的期望壽命資料進行計算,發現兩個變數之間具有正的相關關係:香菸銷售量越來越多,人口的期望壽命也越來越高。這種相關關係就是典型的虛假相關。首先要定性分析,只有在科學理論上能夠解釋變數之間確實有聯絡,才能認為變數的數值之間存在著相關關係。否則,不能使用這種虛假的相關關係作任何的推測或**。

在客觀現實中,許多現象之間都存在著某種相互聯絡或相互依存的關係。例如,降雨量與雲層厚度之間的關係,居民收入增長率與物價指數的關係,人的身高和體重的關係,汽車行使速度與行使里程之間的關係,圓的面積與圓的半徑之間的關係等。現象與現象之間的關係如果使用數量來描述,就形成變數與變數之間的關係。2.

2.函式關係

所謂函式關係,是指各變數之間的數值依一定的函式形式所形成的一一對應關係。也就是說,當乙個變數或幾個變數取一定的值時,另乙個變數有乙個確定的值與之相對應。例如,當給出圓的半徑r時,就可以根據s=πr2,計算出圓面積s;反之,給定圓的面積s,同樣根據s=πr2,可以計算出圓的半徑r。因此說,圓面積s與圓半徑r是函式關係。類似地,當某種商品的銷售**保持不變時,銷售額與銷售量也可以看作是函式關係。給定銷售量就可以知道銷售額,有了銷售額就可以知道銷售量。變數之間的函式關係在自然科學中是普遍存在的。在數學、物理學和化學中有許多嚴格的定理和公式,這些定理和公式揭示了變數之間存在的相互關係,冥王星的發現就是萬有引力定律的最好應用。

在分析多組資料之間的關係時,首先需要通過相關分析確定資料之間的相關關係,然後再通過回歸分析確定資料之間的函式關係。這就引出了相關分析與回歸分析。

在研究因變數時,一方面需要研究哪些變數與因變數相關以及關聯程度的強弱,這種研究可以稱為相關分析。另一方面需要研究因變數與自變數之間是否具有某種數量關係,確定因變數與自變數之間的數學模型,這種研究稱為回歸分析。

相關分析與回歸分析有著密切的聯絡,它們不僅具有共同的研究物件,而且基礎理論也具有一致性。在對變數研究時經常需要它們相互補充。相關分析要為變數之間建立回歸模型提供依據;回歸分析揭示出變數相關的具體形式。只有當變數之間存在著高度相關時,進行回歸分析才可能是正確的。同理,只有通過回歸模型掌握了變數之間關聯的具體形式,相關分析才有意義。

雖然相關分析與回歸分析經常同時使用,但是,它們在研究目的和方法上還是有著明顯區別的。首先,在研究目的上不同。進行相關分析是為了得到變數間的關聯程度;二回歸分析是為了得到因變數與自變數的關係模型。其次,在進行相關分析時,一般不需要區別因變數和自變數,且兩種變數都屬於隨機變數;而建立回歸模型卻必須去邊因變數和自變數,並且因變數是隨機變數,自變數被看作是確定性變數。

那麼如何量化變數之間的相關程度?兩個變數間線性關係的程度。用相關係數r(-1 ——  1)來描述。

相關程度根

·|r|>0.95 存在顯著性相關;

·|r|≥0.8 高度相關;

·0.5≤|r|<0.8 中度相關;

·0.3≤|r|<0.5 低度相關;

·|r|<0.3 關係極弱,認為不相關。

python1如何計算相關係數

回歸分析(regression analysis)通過建立模型來研究變數之間相互關係的密切程度、結構狀態及進行模型**的工具,可以確定兩種或兩種以上變數間相互依賴的定量關係的一種方法,在機器學習中是重要的乙個模組,在sklearn機器學習庫中有廣泛的演算法實現,如ols,脊回歸等,回歸分析的研究範圍:

按變數的多少劃分:

如果只研究兩個變數之間的相關關係則稱為單相關,對這兩個變數所做的回歸分析叫一元回歸,也稱為簡單回歸。其中乙個變數是因變數,另乙個變數是自變數。當所研究的是乙個變數與兩個或兩個以上變數的相關關係時,稱為復相關。對這些變數所作的回歸分析就稱為多元回歸,其中乙個變數是因變數,其它變數是自變數。

按相關與回歸的形式劃分:

當變數之間的關係可以通過線性方程表達時,它們的關係就是線性相關,對此進行的回歸分析稱為線性回歸。反之,稱為非線性相關,相應的回歸分析稱為非線性回歸。在只有兩個變數時,線性關係體現為直線關係,非線性關係體現為曲線關係。通過散點圖可以直接觀察變數之間是否具有線性關係。

多重線性回歸:

如果我們要**的資料模型中,自變數之間存在多重共線性時,那麼再使用最小二乘法進行權重引數求解不會準確,消除多重共線性的引數改進估計方法主要有嶺回歸和主成分回歸。

常見的回歸模型:

參考:相關與回歸分析基礎

python資料分析與挖掘實戰

機器學習(2) 回歸演算法 回歸分析

在統計學中,回歸分析 regression analysis 指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析 按照因變數的多少,可分為 簡單回歸 分析和多重回歸分析 按照 自變數和 因變數之間的關係型別,可分為 線性回歸 ...

機器學習基礎 資料分析

1 問題定義 2 資料獲取 3 資料預處理 4 資料分析與建模 5 資料視覺化及資料報告的撰寫 貢獻度分析又稱帕累託分析,它的原理是帕累託法則又稱2 8定律。即累積效應達80 的前幾個因素。用統計指針對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。1 集中趨勢度量 均值 中位數 眾數...

機器學習基礎之模型評估與誤差分析

fp false positive 假陽 tp true positive 真陽 fn false negative 假陰 tn true negative 真陰 precision 準確率 p t ptp fp p frac p tp f ptp recall 召回率 r t ptp fn r f...