線性回歸機器學習演算法介紹

在解釋什麼是線性回歸之前，我們先舉個例子！

假設我們已知m個樣本，樣本裡有n個特徵x，和對應的輸出y。表示式如下：

現在出現了乙個新的資料集

需要**它對應的輸出y是多少。

首先我們需要知道的是，如果輸出y是連續的，則是回歸問題，否則是分類問題。

如果是分類問題，那我們應該對前面的m個樣本擬合，建立類似以下形式的線性方程：

這樣，我們就可以對新的資料集做出**，求出對應的y值啦。當然，對於擬合出來的函式，並不能做到100%準確**。現實的情況更多的是下圖表示的情況

好了，以上就是線性回歸啦。

為了方便出去跟朋友裝逼，我們用專業屬於概括就是：

利用數理統計中的回歸分析，來確定兩種或者兩種以上變數間相互依賴的定量關係的一種統計分析方法。線性回歸可以說是機器學習中最基本的演算法了。

一、線性回歸的目標

1，評估**變數y在解釋反應變數x的變異或表現時的顯著性。

2，在給定**變數值x的情況下**反應變數值y。

二，線性回歸的應用

1，**，即建立乙個模型(方程)，基於反應變數y與其他**變數x的關係來**新的y值。

2，解釋分析和探索式分析，即用於理解和解釋反應變數和**變數間的關係。

三，線性回歸的類別

1，一元線性回歸：只包括乙個自變數和乙個因變數，且二者關係可用一條直線近似表示。

2，多元線性回歸：包括兩個或兩個以上的自變數，且因變數和自變數之間是線性關係

四，線性回歸的假設函式和損失函式

這裡解釋以下什麼叫假設函式和損失函式

假設函式：在監督學習中，為了擬合輸入樣本，而使用的假設函式，常用表示。

損失函式：也叫代價函式，目標函式。為了評估模型擬合的好壞，用來度量擬合的程度。損失函式越小，則擬合程度越好，則對應的引數即為最優引數。對於線性回歸，一般用均方誤差(即**值減真實值的平方)作為其損失函式。

以下我們假定有m個樣本，每個樣本對應於n維特徵和乙個輸出結果y，則線性回歸假設函式為

五，演算法過程

已知假設函式，和損失函式。那我們接下來的目標是求出使得損失函式最小值的模型引數。求最小值，我們通常使用梯度下降演算法和最小二乘法。今天我們就選擇使用最小二乘法吧。為方便解釋，我們只使用乙個特徵的樣本，即損失函式變為

要使損失函式值最小，就要分別對，求偏導數，令偏導數都等於0 。從而得到，的方程組，聯立這兩個方程組，這樣就可以得到，這兩個引數的值啦。具體過程如下：

這樣最優模型的引數就求出來啦。

以上就是線性回歸演算法的介紹了。