線性回歸演算法梳理

2021-09-13 22:51:11 字數 1870 閱讀 7276

不僅把訓練資料輸入給計算機,而且還把資料具有的標籤也一併輸入計算機分析。計算機進行學習之後,再丟給它新的未知的資料,它也能計算出該資料導致各種結果的概率,給你乙個最接近正確的結果。由於計算機在學習的過程中不僅有訓練資料,而且有訓練結果(標籤),因此訓練的效果通常不錯。

只給計算機訓練資料,不給結果(標籤),因此計算機無法準確地知道哪些資料具有哪些標籤,只能憑藉強大的計算能力分析資料的特徵,從而得到一定的成果,通常是得到一些集合,集合內的資料在某些特徵上相同或相似。

是指乙個機器學習演算法對於沒有見過的樣本的識別能力。我們也叫做舉一反三的能力,或者叫做學以致用的能力。

過擬合:根本的原因則是特徵維度過多,導致擬合的函式完美的經過訓練集,但是對新資料的**結果則較差。解決:1.減少特徵維度; 可以人工選擇保留的特徵,或者模型選擇演算法正則化; 2.保留所有的特徵,通過降低引數θ的值,來影響模型

欠擬合:根本的原因是特徵維度過少,導致擬合的函式無法滿足訓練集,誤差較大。欠擬合問題可以通過增加特徵維度來解決。

摘自:機器學習:什麼是過擬合、欠擬合

交叉驗證(cross validation)是用來驗證分類器的效能一種統計分析方法,基本思想是把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(training set),另一部分做為驗證集(validation set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的效能指標。

給定資料集d=,我們試圖從此資料集中學習得到乙個線性模型,這個模型盡可能準確地反應x(i)和y(i)的對應關係。

通常的線性回歸,就變成了如何求得變數引數的問題,根據求得的引數,我們可以對新的輸入來計算**的值。(也可以用於對訓練資料計算模型的準確度)

損失函式和代價函式是同乙個東西,目標函式是乙個與他們相關但更廣的概念,對於目標函式來說在有約束條件下的最小化就是損失函式(loss function)。

梯度下降:是利用一階的梯度資訊找到函式區域性最優解的一種方法,也是機器學習裡面最簡單最常用的一種優化方法。

牛頓法:在梯度下降法中,我們看到,該方法主要利用的是目標函式的區域性性質,具有一定的「盲目性」。牛頓法則是利用區域性的一階和二階偏導資訊,推測整個目標函式的形狀,進而可以求得出近似函式的全域性最小值,然後將當前的最小值設定近似函式的最小值。相比梯度下降法,牛頓法帶有一定對全域性的**性,收斂性質也更優良。

mae(mean absolute error) 平均絕對誤差

mse(mean square error) 平均平方差/均方誤差是回歸任務最常用的效能度量。

rmse(root mean square error) 方均根差 ,缺點:因為它使用的是平均誤差,而平均誤差對異常點較敏感,如果回歸器對某個點的回歸值很不合理,那麼它的誤差則比較大,從而會對rmse的值有較大影響,即平均值是非魯棒的。

mape ,全稱是mean absolute percentage error(wikipedia), 也叫mean absolute percentage deviation (mapd),在統計領域是乙個**準確性的衡量指標。

r平方 ,r平方是多元回歸中的回歸平方和佔總平方和的比例,它是度量多元回歸方程中擬合程度的乙個統計量,反映了在因變數yy的變差中被估計的回歸方程所解釋的比例。 r平方越接近1,表明回歸平方和佔總平方和的比例越大,回歸線與各觀測點越接近,用xx的變化來解釋yy值變差的部分就越多,回歸的擬合程度就越好。

linearregression(fit_intercept=true,normalize=false,copy_x=true,n_jobs=1)

fit_intercept:是否有截據,如果沒有則直線過原點。

normalize:是否將資料歸一化

copy_x:預設為true,當為true時,x會被copied,否則x將會被覆寫。

n_jobs:預設值為1。計算時使用的核數。

線性回歸演算法梳理

機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...

線性回歸演算法梳理

有監督 資料做過標記 無監督 對原始資料進行處理,未做標記 泛化能力 由訓練資料建立的模型對同類問題的解決能力 過擬合 模型過於複雜導致解決問題能力差 欠擬合 模型過於簡單導致擬合資料的能力差 方差和偏差以及各自解決辦法 交叉驗證 當資料比較少時,將資料分成n份,取n 1份做訓練集,1份做驗證集,改...

線性回歸演算法梳理

監督學習 資料集中的每個樣本有相應的標籤,根據這些樣本做出 無監督學習 資料集中沒有標籤。無監督學習的任務是從給定的資料集中,找出可能具有的結構。泛化能力 指乙個機器學習演算法對於沒有見過的樣本的識別能力。過擬合欠擬合 方差和偏差以及各自解決辦法 欠擬合 模型沒有很好地捕捉到資料特徵,不能夠很好地擬...