線性回歸演算法梳理

不僅把訓練資料輸入給計算機，而且還把資料具有的標籤也一併輸入計算機分析。計算機進行學習之後，再丟給它新的未知的資料，它也能計算出該資料導致各種結果的概率，給你乙個最接近正確的結果。由於計算機在學習的過程中不僅有訓練資料，而且有訓練結果（標籤），因此訓練的效果通常不錯。

只給計算機訓練資料，不給結果（標籤），因此計算機無法準確地知道哪些資料具有哪些標籤，只能憑藉強大的計算能力分析資料的特徵，從而得到一定的成果，通常是得到一些集合，集合內的資料在某些特徵上相同或相似。

是指乙個機器學習演算法對於沒有見過的樣本的識別能力。我們也叫做舉一反三的能力，或者叫做學以致用的能力。

過擬合：根本的原因則是特徵維度過多，導致擬合的函式完美的經過訓練集，但是對新資料的**結果則較差。解決：1.減少特徵維度; 可以人工選擇保留的特徵，或者模型選擇演算法正則化; 2.保留所有的特徵，通過降低引數θ的值，來影響模型

欠擬合：根本的原因是特徵維度過少，導致擬合的函式無法滿足訓練集，誤差較大。欠擬合問題可以通過增加特徵維度來解決。

摘自：機器學習：什麼是過擬合、欠擬合

交叉驗證（cross validation）是用來驗證分類器的效能一種統計分析方法，基本思想是把在某種意義下將原始資料（dataset）進行分組，一部分做為訓練集（training set），另一部分做為驗證集（validation set），首先用訓練集對分類器進行訓練，在利用驗證集來測試訓練得到的模型（model），以此來做為評價分類器的效能指標。

給定資料集d=，我們試圖從此資料集中學習得到乙個線性模型，這個模型盡可能準確地反應x(i)和y(i)的對應關係。

通常的線性回歸，就變成了如何求得變數引數的問題，根據求得的引數，我們可以對新的輸入來計算**的值。（也可以用於對訓練資料計算模型的準確度）

損失函式和代價函式是同乙個東西，目標函式是乙個與他們相關但更廣的概念，對於目標函式來說在有約束條件下的最小化就是損失函式（loss function）。

梯度下降：是利用一階的梯度資訊找到函式區域性最優解的一種方法，也是機器學習裡面最簡單最常用的一種優化方法。

牛頓法：在梯度下降法中，我們看到，該方法主要利用的是目標函式的區域性性質，具有一定的「盲目性」。牛頓法則是利用區域性的一階和二階偏導資訊，推測整個目標函式的形狀，進而可以求得出近似函式的全域性最小值，然後將當前的最小值設定近似函式的最小值。相比梯度下降法，牛頓法帶有一定對全域性的**性，收斂性質也更優良。

mae(mean absolute error) 平均絕對誤差

mse(mean square error) 平均平方差/均方誤差是回歸任務最常用的效能度量。

rmse(root mean square error) 方均根差，缺點：因為它使用的是平均誤差，而平均誤差對異常點較敏感，如果回歸器對某個點的回歸值很不合理，那麼它的誤差則比較大，從而會對rmse的值有較大影響，即平均值是非魯棒的。

mape ，全稱是mean absolute percentage error（wikipedia）, 也叫mean absolute percentage deviation (mapd)，在統計領域是乙個**準確性的衡量指標。

r平方，r平方是多元回歸中的回歸平方和佔總平方和的比例,它是度量多元回歸方程中擬合程度的乙個統計量,反映了在因變數yy的變差中被估計的回歸方程所解釋的比例。 r平方越接近1,表明回歸平方和佔總平方和的比例越大,回歸線與各觀測點越接近,用xx的變化來解釋yy值變差的部分就越多,回歸的擬合程度就越好。

linearregression(fit_intercept=true,normalize=false,copy_x=true,n_jobs=1)

fit_intercept:是否有截據，如果沒有則直線過原點。

normalize:是否將資料歸一化

copy_x:預設為true，當為true時，x會被copied,否則x將會被覆寫。

n_jobs:預設值為1。計算時使用的核數。

線性回歸演算法梳理

線性回歸演算法梳理

線性回歸演算法梳理

線性回歸演算法梳理

相關推薦