機器學習筆記3 多元線性回歸的求解

這裡主要理解一下代價函式，梯度下降，正規方程。

（此文為難點的記錄和理解，作為跟學教程來看顯然是不可取的）

假設有訓練樣本(x, y)，模型為h，引數為θ。h(θ) = θtx（θt表示θ的轉置）。

關於代價函式j(θ)（如下圖），目前的理解就是**值和實際值之間的差值，這個差值越小越好，而實現這個差值優化最常用的方式就是梯度下降。這裡的梯度就是代價函式j(θ)對θ1, θ2, ..., θn的偏導數。由於需要求偏導，我們可以得到另乙個關於代價函式的性質：

方向導數：某一點（x，y）延曲面在某一方向上的導數

梯度下降演算法：

其實很簡單就是說拿乙個隨便的點，減去他的導數和學習率的乘積，就能逐步逼近最低點。當然這裡學習率是乙個自己設定的值，通用的方法就是一步步試探，從0.001開始往上。但後來我了解到有一些擴充套件包fast.ai上有相應封裝好的函式到時候直接拿來用就好了。j(θ)是代價函式直接帶入就能迭代出最後結果。

特徵縮放（平均歸一化）：讓所有特徵的數值更接近一些，更容易的得到極值。例如，讓所有的值都在1-100的範圍內，把另乙個特徵的0.1-0.5擴大範圍往裡放。（可用均值來估計換範圍公式）

多項式回歸：如果不能很好地擬合資料，我們的假設函式不必是線性的（直線）。我們可以通過使其成為二次，三次或平方根函式（或任何其他形式）來改變我們的假設函式的行為或曲線。

正規方程：就是利用乙個柿子，（我沒記住，大概是把因素資料列成乙個矩陣，y值列成乙個向量，他倆做運算）來計算出θ值。缺點：看他的計算公式可知要計算n*n維的乙個矩陣的轉置，這種運算對於超過一萬的資料量就太慢了。要注意當矩陣不可逆的時候的處理方式。。。（這個等複習線性代數的時候再回來學）

說明：本文圖截自andrewng的神經網路學習課程中，文字僅為個人理解。

tip：因為學習用到一些長篇大論的英文試題和考試，所以在此獻上乙個翻譯pdf的辦法，分三步，第一用word開啟pdf，他能直接進行格式轉化；第二把word文件存成xml網頁格式；第三開啟index(要確保資料夾和index在乙個目錄下）。不翻牆不花錢。。。是的本博主又窮又懶。。。

後：跟人工智障還智障的博主龜速更ing。。。