用泰勒公式推導梯度下降原理

2021-09-25 13:51:52 字數 3169 閱讀 7979

泰勒公式,應用於數學、物理領域,是乙個用函式在某點的資訊描述其附近取值的公式。如果函式足夠平滑的話,在已知函式在某一點的各階導數值的情況之下,泰勒公式可以用這些導數值做係數構建乙個多項式來近似函式在這一點的鄰域中的值。

說白了,泰勒公式就是:可以使用函式在某點的各階導數組成高次多項式去逼近乙個函式。泰勒公式表示為:

h (x

)=∑k

=0∞h

(k)(

x0)k

!(x−

x0)k

\mathrm(\mathrm)=\sum_^ \frac^\left(x_\right)}\left(x-x_\right)^

h(x)=k

=0∑∞

​k!h

(k)(

x0​)

​(x−

x0​)

k將泰勒公式展開:

h (x

)=∑k

=0∞h

(k)(

x0)k

!(x−

x0)k

=h(x

0)+h

′(x0

)(x−

x0)+

h′′(

x0)2

!(x−

x0)2

+…\begin \mathrm(\mathrm) &=\sum_^ \frac^\left(x_\right)}\left(x-x_\right)^ \\ &=h\left(x_\right)+h^\left(x_\right)\left(x-x_\right)+\frac\left(x_\right)}\left(x-x_\right)^+\ldots \end

h(x)​=

k=0∑

∞​k!

h(k)

(x0​

)​(x

−x0​

)k=h

(x0​

)+h′

(x0​

)(x−

x0​)

+2!h

′′(x

0​)​

(x−x

0​)2

+…​同時,如果x

xx 很接近 x

0x_0

x0​,也就是逼近的範圍足夠小的話,上面的公式可以只取前兩項:

h (x

)≈h(

x0)+

h′(x

0)(x

−x0)

h(x)≈h

(x0​

)+h′

(x0​

)(x−

x0​)

上面的公式是變數為一維的時候得出的,對於多維變數,只不過將求導改為分別求偏導即可。

想象一下在多維空間中有下面的影象(它的函式l(θ

)l(\boldsymbol \theta)

l(θ)

自變數為θ

1\theta_1

θ1​ 和 θ

2\theta_2

θ2​),從紅色到紫色表示海拔越來越低,那麼任取空間中乙個點θ

0\theta_0

θ0​ 後,每次移動一步,如何才能更快的到達谷底。

為了方便用公式推導出最速下降的關係,可以設定每次在極小的範圍內移動一步,因此就可以將l(θ

)l(\boldsymbol \theta)

l(θ)

用泰勒展開來逼近。將走這一小步到達的點記為(a,

b)\left(a,b\right)

(a,b

),則有泰勒展開如下:

上面的式子即被簡化成了:

l (θ

)≈s+

u(θ1

−a)+

v(θ2

−b)l(

θ)≈s

+u(θ

1​−a

)+v(

θ2​−

b)​因為s

ss 是乙個定值,只與輸入有關,因此不去看它,只考慮u(θ

1−a)

+v(θ

2−b)

u\left(\theta_-a\right)+v\left(\theta_-b\right)

u(θ1​−

a)+v

(θ2​

−b).

將u

uu 與 v

vv 合在一起作為乙個向量∇wf

(x)\nabla_f(x)

∇w​f(x

)(這其實就是對所有變數分別求偏導的集合),將(θ1

−a)\left(\theta_-a\right)

(θ1​−a

)與(θ2−

b)\left(\theta_-b\right)

(θ2​−b

)作為另外乙個向量u

\boldsymbol u

u(距離盡可能小,可以視為單位向量),想讓l(θ

)l(\boldsymbol \theta)

l(θ)

最小,也即讓兩個向量的點積最小,也就是:

min ⁡u

⊤∇xf

(x)=

min⁡∥u

∥2∥∇

xf(x

)∥2cos⁡θ

\min\boldsymbol^ \nabla_} f(\boldsymbol) \\ = \min \|\boldsymbol\|_\left\|\nabla_} f(\boldsymbol)\right\|_ \cos \theta

minu⊤∇

x​f(

x)=min∥u

∥2​∥

∇x​f

(x)∥

2​cosθ

想讓上面的式子取最小值,很顯然要令兩個向量方向相反,也就是:下降的方向與梯度方向相反。

梯度下降法和泰勒公式

對於一些較複雜的函式,為了便於研究,往往希望用一些簡單的函式來近似表達。由於用多項式表示的函式,只要對自變數進行有限次的加,減,乘三種算數運算,便能求出它的函式值,因此我們經常用多項式近似表達函式。簡單說來,就是 在誤差允許的前提下,我們用多項式 簡單函式 來近似代替複雜函式,使得複雜函式的應用更加...

梯度下降演算法 梯度下降演算法公式推導

場景假設 梯度下降法的基本思想可以模擬為乙個下山的過程。假設這樣乙個場景 乙個人被困在山上,需要從山上下來 找到山的最低點 但此時山上的濃霧很大,導致可視度很低 因此,下山的路徑就無法確定,必須利用自己周圍的資訊一步一步地找到下山的路。這個時候,便可利用梯度下降演算法來幫助自己下山。怎麼做呢,首先以...

梯度下降演算法公式推導

梯度下降法的基本思想可以模擬為乙個下山的過程。假設這樣乙個場景 乙個人被困在山上,需要從山上下來 找到山的最低點 但此時山上的濃霧很大,導致可視度很低 因此,下山的路徑就無法確定,必須利用自己周圍的資訊一步一步地找到下山的路。這個時候,便可利用梯度下降演算法來幫助自己下山。怎麼做呢,首先以他當前的所...