演算法之路 線性回歸(五)

2021-09-24 04:55:42 字數 2005 閱讀 1353

1.建模速度快,不需要很複雜的計算,在資料量大的情況下依然執行速度很快。

2.可以根據係數給出每個變數的理解和解釋。

3.對異常值很敏感。

1.只能用於擬合線性資料

線性回歸有很多實際用途。分為以下兩大類:

如果目標是**或者對映,線性回歸可以用來對觀測資料集的和x的值擬合出乙個**模型。當完成這樣乙個模型以後,對於乙個新增的x值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型**出乙個y值。

給定乙個變數y和一些變數x1,...,xp,這些變數有可能與y相關,線性回歸分析可以用來量化y與xj之間相關性的強度,評估出與y不相關的xj,並識別出哪些xj的子集包含了關於y的冗餘資訊。

例子:線性回歸中最常見的就是房價的問題。一直存在很多房屋面積和房價的資料,如下圖所示:

在這種情況下,就可以利用線性回歸構造出一條直線來近似地描述放假與房屋面積之間的關係,從而就可以根據房屋面積推測出房價。

線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。其表達形式為y = w'x+e,e為誤差服從均值為0的正態分佈。

回歸分析中,只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性回歸分析

高斯分布

極大似然

最小二乘

梯度下降

歸一化的目的就是使得預處理的資料被限定在一定的範圍內(比如[0,1]或者[-1,1]),從而消除奇異樣本資料導致的不良影響。

1)在統計學中,歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0~1之間是統計的概率分布,歸一化在-1~+1之間是統計的座標分布。

2)奇異樣本資料是指相對於其他輸入樣本特別大或特別小的樣本向量(即特徵向量),譬如,下面為具有兩個特徵的樣本資料x1、x2、x3、x4、x5、x6(特徵向量—>列向量),其中x6這個樣本的兩個特徵相對其他樣本而言相差比較大,因此,x6認為是奇異樣本資料。

奇異樣本資料的存在會引起訓練時間增大,同時也可能導致無法收斂,因此,當存在奇異樣本資料時,在進行訓練之前需要對預處理資料進行歸一化;反之,不存在奇異樣本資料時,則可以不進行歸一化。

詳情請看資料:

資料歸一化的方法:

資料歸一化的方法主要有兩種:最值歸一化和均值方差歸一化。

最值歸一化的計算公式如下:

最值歸一化的特點是,可以將所有資料都對映到0-1之間,它適用於資料分布有明顯邊界的情況,容易受到異常值(outlier)的影響,異常值會造成資料的整體偏斜。

均值方差歸一化的計算公式如下:

均值方差歸一化的特點是,可以將資料歸一化到均值為0方差為1的分布中,不容易受到異常值(outlier)影響。

詳情請看:

線性回歸分析的步驟如下:

(1)根據**目標,確定自變數和因變數

圍繞業務問題,明晰**目標,從經驗、常識、以往歷史資料研究等角度,初步確定自變數和因變數。

(2)繪製散點圖,確定回歸模型型別

通過繪製散點圖的方式,從圖形化的角度初步判斷自變數和因變數之間是否具有線性相關關係,同時進行相關分析,根據相關係數判斷自變數與因變數之間的相關程度和方向,從而確定回歸模型的型別。

(3)估計模型引數,建立回歸模型

採用最小二乘法進行模型引數的估計,建立回歸模型。

(4)對回歸模型進行檢驗

回歸模型可能不是一次即可達到預期的,通過對整個模型及各個引數的統計顯著性檢驗,逐步優化和最終確立回歸模型。

(5)利用回歸模型進行**

模型通過檢驗後,應用到新的資料中,進行因變數目標值的**。

線性回歸演算法

1 有監督學習 supervised learning 不僅把訓練資料丟給計算機,而且還把分類的結果 資料具有的標籤 也一併丟給計算機分析。計算機進行學習之後,再丟給它新的未知的資料,它也能計算出該資料導致各種結果的概率,給你乙個最接近正確的結果。由於計算機在學習的過程中不僅有訓練資料,而且有訓練結...

線性回歸演算法

什麼是線性回歸?統計學中,線性回歸 linear regression 是利用稱為線性回歸方程的最小平方函式對乙個或多個自變數和因變數之間關係進行建模的一種回歸分析。原理與推導 損失函式 loss function 是定義在單個樣本上的,算的是乙個樣本的誤差。代價函式 cost function 是...

線性回歸演算法

size in feet x price in 1000 s y 2104 4601416 2321534 315852 178m 訓練樣本的數目 例如上述 有四行就有4個樣本數目,有多少行就有多少樣本數目 x s 輸入變數或者目標變數 y s 輸出變數或者目標變數 x,y 則表示乙個訓練樣本 線性...