線性回歸演算法（二）

本節內容是衡量線性回歸演算法的指標，導圖如下：

這個這個mse還有乙個問題，就是量綱不同。資料集是用萬元做單位的，但是mse確實萬元的平方，顯然不同量綱。這個原理跟為什麼有了標準差，還要有方差是一樣的，都是為了統一量綱。

所以，我們的解決方法跟方差和標準差是一樣的，讓mse去開方，得到rmse：

另外還要一種很直白的方法，如下：

rmse和mae的量綱是一樣的，都是資料中y對應的量綱。他們的區別如下：

下面我們用真實的波士頓房價資料進行練習一下。 j

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,shuffle =666)
複製**

分離後：

前面提到的幾種評價標準，其實還存在乙個問題，那就是，不是採用平時的分類準確度標準，也就是，0 表示最差，1表示最好，然後演算法準確度的值在(0,1)之間，我們可以很方便的比較兩種演算法的優劣。舉個例子，演算法一我用房子大小做特性，演算法二我用房屋距市中心位置做特性，採用rmse或者mae計算後，無法衡量兩個演算法的優劣，因為乙個是面積，乙個是距離，不是同乙個東西。

因此，我們需要引入乙個新的指標：r squared。

具體為：

為什麼說這個好呢？我們可以這麼想：

採用進行**叫做baseline model（基類模型），它與x無關，所以它的誤差肯定是比較大的。

從而，我們可以對指標做這樣的理解：

接下來我們對r方的公式進行簡化：

接下來，我們用**來實現一下r square：

然後，我們呼叫sklearn封裝的方法試一下：

可以看到結果是一樣的~

ok，第二部分結束了，默默獎勵自己一顆糖果~~

線性回歸演算法（二）

線性回歸演算法

線性回歸演算法

線性回歸演算法

相關推薦