吳恩達機器學習004多元梯度下降

2022-09-14 00:45:20 字數 2365 閱讀 8542

標籤: 演算法 機器學習

目錄特徵和多項式回歸

正規方程

我們引入更加多的特徵來對房價進行進一步評估,同時也新增一些符號來幫助表示引數。

n用來表示特徵(feature)量,x(i)

這是表示的就不是乙個值了,而是一組向量 ,同時用xj

(i)來表示向量裡的具體哪乙個引數 

有了多個特徵之後假設函式就應該將所有特徵考慮進去才合適,於是就有了新的形式

上一章講了矩陣和向量,這個時候可以學以致用了,假設函式可以寫成如上形式,至於為什麼θt為什麼要放左邊,因為行向量只能放左邊,列向量只能放右邊,不然不能相乘 

##多元梯度下降法

類似的,我們也可以列出相應的代價函式

當兩個特徵的取值範圍相差過大時,會出現如左邊圖一樣的細長橢圓形,這樣的話梯度下降會收斂地很慢,但如果在之前我們將特徵進行縮放的話,可以加快梯度下降地速度,減少迭代地次數。

特徵縮放到地範圍接近【-1,1】即可,但最好不要像後兩個例子一樣

還可以用均值歸一化來加快收斂,如圖,將引數減去特徵的平均值再除以特徵地範圍(最大值-最小值  或者  標準差)

###學習率α

為了知道代價函式是否收斂,我們可以每隔規定迭代次數進行取樣繪圖,當影象地線趨於平緩時代表函式收斂,從而判斷梯度下降是否在正常工作

當影象呈現出以上左圖兩種情形時,可能是因為學習率過大了,這式可以換乙個小一點地學習率。數學家已經證明只要學習率足夠小,函式會一直下降,迭代次數會很多,收斂速度會很慢

在尋找合適學習率時可以嘗試按10的倍數來找,找到合適的再在中間按3的倍數找,直到找到合適的學習率

##特徵和多項式回歸

在對問題進行分析時,可以現有的特徵組合出新的更加易於我們分析的特徵,比如將房子的長和寬相乘,得到面積特徵和**進行比較

多元線性回歸如上圖,當我們發現直線不能很好的擬合時,我們可以用拋物線來擬合,但拋物線會下降,所以可以用三次曲線來擬合得到一條良好的關係圖,這時樣本就可以是平方或立方,這時特徵縮放顯得尤為重要,適當的縮放能把值得範圍變得又可比性

##正規方程

正規方程和梯度下降演算法不同之處在於,梯度下降演算法是j(θ)得最小值,而正規方程則是求θ,所以正規方程可以一步到最優解,但正規方程有好處有壞處,

為了求得最小值時的θ,可以對代價函式求偏導,然後全部置零解出每乙個θ

如圖有四個訓練樣本,加上一列後寫成矩陣得形式,再根據左下角公式可以算出θ得值

當使用正規方程時,特徵縮放便不那麼重要了

梯度下降和正規方程得優缺點比較

梯度下降 

正規方程

需要選擇學習率

不需要選擇學習率

需要很多次迭代

不需要很多次迭代

當n特徵量很多時依然工作正常

當資料很大時求解逆矩陣會花費大量的時間

###正規方程再矩陣不可逆得情況下得解決方法

在oct**e裡面求解逆有兩種函式pinv和inv,pinv在逆不存在時也能給出θ得正確解

通常出現不可逆得情況有如上情況,特徵始終滿足乘積為定值,或者當訓練集少於特徵量時

吳恩達機器學習筆記 多元線性回歸

之前的文章中已經講述了簡單的一元線性回歸的基礎知識,現在我們來繼續討論多元線性回歸。本文針對吳恩達機器學習第二週課程多元線性回歸部分。所謂多元線性回歸正如其名字一樣,就是說這裡的變數是多個的,下面介紹一下如何表示含有多個變數情況下的假設函式 h theta x theta 0 theta 1x 1 ...

梯度下降 from 吳恩達的機器學習

梯度下降 用來求函式最小值的演算法,使用梯度下降演算法來求出代價函式的最小值。梯度下降思想是 開始時我們隨機選擇乙個引數的組合 計算代價函式,然後我們尋找下乙個能讓代價函式值下降最多的引數組合。我們持續這麼做直到到到乙個區域性最小值 local minimum 因為我們並沒有嘗試完所有的引數組合,所...

吳恩達機器學習筆記 梯度下降法

1 假設函式的引數更新要做到同時更新,即先將求得的引數放在統一的temp中,然後同時賦值給對應的引數w0,w1,w2,w3.2 特徵縮放和收斂速度問題 倘若,特徵向量中一些特徵值相差太大,就會導致代價函式特徵引數的函式曲線很密集,以至於需要多次迭代才能達到最小值。學習率 決定演算法收斂的速度,較大的...