任務1 線性回歸演算法梳理

1、機器學習的一些概念

1)有監督：訓練資料有標記資訊

2)無監督：訓練資料無標記資訊

3)泛化能力：演算法適用於新樣本的能力

4)過擬合：訓練樣本學得太好，泛化能力不足，通常表現為在訓練集上具有高方差和低偏差

5)欠擬合：訓練樣本學得不好，不是過於密切地跟蹤訓練資料，而是乙個不合適的模型忽略了訓練資料的教訓，並且無法學習輸入和輸出之間的潛在關係，通常表現為在訓練集上具有低方差和高偏差

6)交叉驗證：將原始資料進行分組,一部分做為訓練集,另一部分做為驗證集,首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型,以此來做為評價分類器的效能指標。

2、線性回歸的原理

線性回歸畫出的圖形未必是一條直線，只有乙個變數時模型是平面中的一條直線；有兩個變數的時候，模型是空間中的乙個平面；有更多變數時，模型將是更高維的。

通常公式為： h(x)=w1x1+ w2x2+ w3x3+…+ wnxn+b, 其中xi為特徵變數，wi為權重，通過權重可看出特徵對整體**起到的作用大小。為了使線性回歸方程擬合資料效果更好，需引入代價函式, 通過計算代價函式最小值可得出使所有點到直線的距離之和最小的wi和b的值：

根據測試資料，訓練出最小代價函式下的wi和b值，從而使用已知的線性回歸模型對測試資料**其輸出結果，人工檢驗其準確率、召回率、精確率等，判斷模型是過擬合或欠擬合，再決定採取何種策略優化模型。

3、線性回歸的損失函式/代價函式/目標函式

1)損失函式：衡量乙個樣本模型**出來的值h(x)與真實值y之間的差異的函式c

c=(y-h(x))2

2)代價函式：能夠衡量模型**出來的值h(x)與真實值y之間的差異的函式c，如果有多個樣本，則可以將所有代價函式的取值求均值，記做j,

其特徵是：

• 對於每種演算法來說，代價函式不是唯一的；

• 代價函式是引數w,b的函式；

• 總的代價函式j可以用來評價模型的好壞，代價函式越**明模型和引數越符合訓練樣本(x, y)；

• j是乙個標量

當我們確定了模型h，後面做的所有事情就是訓練模型的引數w,b。由於代價函式是用來衡量模型好壞的，我們的目標當然是得到最好的模型（也就是最符合訓練樣本(x, y)的模型）。因此訓練引數的過程就是不斷改變w,b，從而得到更小的j的過程。理想情況下，當我們取到代價函式j的最小值時，就得到了最優的引數w,b.

3)目標函式：損失函式+正則化，並不是損失函式最小線性回歸函式就最好，為了防止過擬合通常會構建乙個函式f,當minj(w)+f時，對應的w,b值為線性回歸函式最優引數。

4、線性回歸的優化方法（梯度下降法）

梯度下降法通常用於求損失函式最優解時，即利用沿著梯度下降最快的方向求偏導數，得到損失函式的全域性最小值時的引數w,b。

1)首先對w賦值，這個值可以是隨機的，也可以是乙個零向量；

2）改變w的值，使得j(w)按梯度下降的方向進行減少；

3）當j(w)下降到無法下降時為止，即j(w)對w的導數為0時，比較j(w)的值是否有變化。

關於下降的速度，即學習率，需要手動設定。

任務1 線性回歸演算法梳理

初級演算法梳理任務1 線性回歸演算法梳理

初級演算法學習小組任務1 線性回歸演算法梳理

線性回歸演算法梳理

任務1 線性回歸演算法梳理

初級演算法梳理 任務1 線性回歸演算法梳理

初級演算法學習小組 任務1 線性回歸演算法梳理

線性回歸演算法梳理

相關推薦

初級演算法梳理任務1 線性回歸演算法梳理

初級演算法學習小組任務1 線性回歸演算法梳理