Task1 線性回歸演算法梳理

1. 有監督學習:訓練資料有標記

2.無監督學習:訓練資料沒有標記

3.泛化能力:學得模型適用於新樣本的能力

4.過擬合欠擬合(方差和偏差以及各自解決辦法)：

(1)過擬合：當學習器把訓練樣本學得太好時，可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會有的一般性質，這樣就會導致泛化效能下降。

解決方法:重新清洗資料、增大資料的訓練量、採用正則化方法。

(2)欠擬合:訓練樣本的一般性質尚未學好。

解決方法:新增其他特徵項、新增多項式特徵、減少正則化引數。

5.交叉驗證:將原始資料進行分組,一部分做為訓練集，另一部分做為驗證集，首先用訓練集對分類器進行訓練，再利用驗證集來測試訓練得到的模型，以此來做為評價分類器的效能指標。

線性回歸假設特徵和結果滿足線性關係。其實線性關係的表達能力非常強大，每個特徵對結果的影響強弱可以由前面的引數體現，而且每個特徵變數可以首先對映到乙個函式，然後再參與線性計算。這樣就可以表達特徵與結果之間的非線性關係。

1.梯度下降法:

(1) 先確定向下一步的步伐大小，我們稱為學習率α；

(2) 任意給定乙個初始值:θ；

(3) 確定乙個向下的方向，並向下走預先規定的步伐，並更新θ值；

(4) 當下降的高度小於某個定義的值ε，則停止下降。

2.牛頓法:

(1) 隨機選取起始點x0

(2) 計算目標函式f(x)在該點xk的一階導數和海森矩陣；

(3) 依據迭代公式xk+1=xk−hk

-1f』k更新x值

(4) 如果e(f(xk+1)−f(xk))

1.mse:均方誤差是指引數估計值與引數真值之差平方的期望值。

2.rmse:均方根誤差是均方誤差的算術平方根。

3.mae:平均絕對誤差是絕對誤差的平均值。

fit_intercept：布林型別，可選引數，預設為true；設定模型是否計算截距，false表示不使用截距。

normalize：布林型別，可選引數，預設值為false；是否對資料進行歸一化處理。

copy_x：布林型別，可選引數，預設值為true；如果為true，x將被複製；否則被重寫。

n_jobs：int型別，可選引數，預設值為1；如果設為1，將啟動所有cpu。

方法：

decision_function(x) ：對訓練資料x進行**。

fit(x, y[, n_jobs])：對訓練集x, y進行訓練。是對scipy.linalg.lstsq的封裝

get_params([deep])：得到該估計器(estimator)的引數。

predict(x)：使用訓練得到的估計器對輸入為x的集合進行**（x可以是測試集，也可以是需要**的資料）。

score(x, y[,]sample_weight):返回對於以x為samples，以y為target的**效果評分。

set_params(**params):設定估計器的引數

decision_function(x) 和predict(x)：都是利用預估器對訓練資料x進行**，其中decision_function(x)包含了對輸入資料的型別檢查，以及當前物件是否存在coef_屬性的檢查，是一種「安全的」方法，而predict是對decision_function的呼叫。

score(x, y[,]sample_weight)：定義為(1-u/v)，其中u=((y_true - y_pred)**2).sum()，而v=((y_true-y_true.mean())**2).mean()

最好的得分為1.0，一般的得分都比1.0低，得分越低代表結果越差。

其中sample_weight為(samples_n,)形狀的向量，可以指定對於某些sample的權值，如果覺得某些資料比較重要，可以將其的權值設定的大一些。

Task1 線性回歸演算法梳理

Task1 線性回歸演算法梳理

Task 1 線性回歸演算法梳理（學習整理筆記）

TASK1 隨機森林演算法梳理

Task1 線性回歸演算法梳理

Task1 線性回歸演算法梳理

Task 1 線性回歸演算法梳理（學習整理筆記）

TASK1 隨機森林演算法梳理

相關推薦