回歸演算法分類，常用回歸演算法解析

回歸是數學建模、分類和**中最古老但功能非常強大的工具之一。回歸在工程、物理學、生物學、金融、社會科學等各個領域都有應用，是資料科學家常用的基本工具。

回歸通常是機器學習中使用的第乙個演算法。通過學習因變數和自變數之間的關係實現對資料的**。例如，對房價估計時，需要確定房屋面積（自變數）與其**（因變數）之間的關係，可以利用這一關係來**給定面積的房屋的**。可以有多個影響因變數的自變數。

因此，回歸有兩個重要組成部分：自變數和因變數之間的關係，以及不同自變數對因變數影響的強度。

以下是幾種常用的回歸方法：

線性回歸：使用最廣泛的建模技術之一。已存在 200 多年，已經從幾乎所有可能的角度進行了研究。線性回歸假定輸入變數（x）和單個輸出變數（y）之間呈線性關係。它旨在找到**值 y 的線性方程：

其中，x=(x1,x2,…,xn) 為 n 個輸入變數，w=(w1,w2,…,wn) 為線性係數，b 是偏置項。目標是找到係數 w 的最佳估計，使得**值 y 的誤差最小。使用最小二乘法估計線性係數 w，即使**值 (yhat) 與觀測值 (y) 之間的差的平方和最小。

因此，這裡盡量最小化損失函式：

現在的目標是估計權重 w=(w1,w2,…,wn) 和偏置項 b。在邏輯回歸中，使用最大似然估計量或隨機梯度下降來估計係數。損失函式通常被定義為交叉熵項：

邏輯回歸用於分類問題，例如，對於給定的醫療資料，可以使用邏輯回歸判斷乙個人是否患有癌症。如果輸出類別變數具有兩個或更多個層級，則可以使用多項式邏輯回歸。另一種用於兩個或更多輸出變數的常見技術是 onevsall。對於多型別邏輯回歸，交叉熵損失函式被修改為：

• l2 正則化提供了稀疏的解決方案。當輸入特徵的數量非常大時，非常有用。在這種情況下，懲罰項是所有係數的平方之和：

其中，λ是正則化引數。