1 線性回歸(二)

2021-09-19 06:25:32 字數 1543 閱讀 6411

為什麼要用特徵縮放?

不用的話,特徵尺度不一樣,導致損失函式的曲面分布會變得很扁很細,甚至出現某個截面是u型的狀況。越細越陡峭,偏導就越大,越容易發散,梯度下降就會走得很艱難。

親身體驗,縮放前,學習率就是大爺,大一點就**,小了又比蝸牛還慢,4kw次才勉勉強強到最小點;縮放後,學習率成了怎麼玩都玩不壞的橡皮泥,400次迭代就到了最小點。

公式如圖,就是對特徵進行一定的處理。網上有說乙個特徵就不用歸一化的,我反正get不來。

關鍵是歸一化後的算出來θ』值要怎麼處理:

1. 對θ』進行處理。本質是把xn

』(第n個特徵)恢復到xn,然後把產生的係數轉移到θ上,得到符合原來特徵的θ。

2.對x進行處理。即把x做同樣的特徵縮放(這裡是均值歸一化)且數值一樣,就能符合新的θ』了,得到的y是一樣的。

一開始還是比較習慣第一種方法,但是仔細想想,可能第二種方法更加適用。因為現在只是線性回歸,到了以後複雜的演算法,比如神經網路,想要把θ』變回θ就不是那麼簡單了。

機器學習–特徵縮放/均值歸一化,看了這篇部落格後才想明白這些的,吳老師的課裡沒講。。。也算是印證了一句話——大學期間學習一門課程,往往需要參考很多的資料。

q:如果對y進行縮放呢?理論上也能返回到原來的θ或者反歸一化得到真正的y。可以看成是換了個單位,比如元到分,甚至到美元。

多項式擬合,算是多特徵的另乙個版本吧,相似又不同。本質上來說只有乙個特徵,x,取決於怎麼看待:

a.把xn看成x的n次冪,這樣就不是線性回歸了,但是同樣可以使用損失函式和梯度下降來幫我們找到乙個很好的函式去擬合這些資料。求導也不難,只是把x換成了x的n次冪。

b.把xn看成第n個特徵,不過這個特徵是通過n次冪的方法人為造出來的。於是又回到了線性回歸問題上,而且從求導的結果來看,也是一樣的。事實上也有對應的例子,比如正方形房子的邊長和面積。

初次接觸,覺得梯度下降被完爆!也的確是,只要n<10000,正規方程解法都很快。據說是n3量級的運算量,所以當n太大,選梯度下降會更好。

公式是θ=(xtx)-1xty,簡單粗暴。至於原理,貌似是讓新產生的y』在平面上和y的投影重合。等我會了再補上。

正規方程只能用於線性方程組,但是加上把xn看成新特徵,不由得產生乙個大膽的想法,多項式擬合+正規方程,實現matlab的polyfit函式的功能!

ps:正規方程裡的特徵不必進行縮放。縮放了也沒事,和梯度下降的最優解是一樣的,也能變回去。

附:正規方程的推導:

原來也有目標函式,而且可以用矩陣乘法表示。關鍵是從均方差函式到歐幾里得距離之間的轉化,以及矩陣求導。

1 線性回歸與非線性回歸

線性回歸就是針對回歸問題的一種線性模型。特點 簡單優雅,模型本身擬合樣本能力不強,通常需要深層次的特徵。對損失函式的一些解釋 假定誤差服從中心極限定理,說明了誤差進行疊加最後趨近於標準正態分佈,先對誤差建立極大似然估計,然後引入到樣本上,最終求解得到損失函式。ps 中心極限定理假定每個樣本需要滿足均...

線性模型 1 多元線性回歸

提綱 線性模型的基本形式 多元線性回歸的損失函式 最小二乘法求多元線性回歸的引數 最小二乘法和隨機梯度下降的區別 疑問學習和參考資料 1.線性模型的基本形式 線性模型是一種形式簡單,易於建模,且可解釋性很強的模型,它通過乙個屬性的線性組合來進行 其基本的形式為 式 1 轉換成向量形式之後寫成 式 2...

線性模型 1 多元線性回歸

提綱 線性模型的基本形式 多元線性回歸的損失函式 最小二乘法求多元線性回歸的引數 最小二乘法和隨機梯度下降的區別 疑問學習和參考資料 1.線性模型的基本形式 線性模型是一種形式簡單,易於建模,且可解釋性很強的模型,它通過乙個屬性的線性組合來進行 其基本的形式為 式 1 轉換成向量形式之後寫成 式 2...