梯度下降法和泰勒公式

對於一些較複雜的函式，為了便於研究，往往希望用一些簡單的函式來近似表達。由於用多項式表示的函式，只要對自變數進行有限次的加，減，乘三種算數運算，便能求出它的函式值，因此我們經常用多項式近似表達函式。

簡單說來，就是：在誤差允許的前提下，我們用多項式(簡單函式)來近似代替複雜函式，使得複雜函式的應用更加方便

所以說，泰勒公式是使用多項式對目標函式的近似，當然為了提高精度，使用了高次多項式

泰勒（taylor）中值定理1：如果函式f(x)在x0處具有n階導數，那麼存在x0的乙個領域，對於該領域的任一x，有：

佩亞諾餘項（近似誤差）：

我們可以利用泰勒公式對未知函式進行估計，過程如下：

設下圖是我們要估計的函式圖形：

我們不知道函式圖形的全部，只知道一小部分：

使用泰勒公式，已知點是這乙個函式片段的端點，通過泰勒公式我們可以估計函式片段端點的乙個極小領域內的值，若我們用一階泰勒展開式進行計算的話，效果應該如下：

每一次估計之後，下一次使用上一次的結果再進行估計（迭代過程），每乙個估計片段鏈結起來，就是我們在已知函式片段下，對函式整體的估計。我們可以使用更高階的泰勒展開來估計函式，這要看對應的應用場景而定。

現在我們只要知道乙個函式的乙個點的取值和該點的變化率（導數），就可以對函式整體進行估計。

在優化方法中最常提到的方法——梯度下降法

什麼是最優化問題？

工程設計中最優化問題(optimization problem)的一般提法是要選擇一組引數(變數)，在滿足一系列(約束條件)下，使設計指標(目標)達到最優值。

設，我們有乙個資料集，每一項資料有兩個值（x：屬性，y：標籤），都是數值型的，我們認為每一項的屬性和標籤是符合某個函式關係的，即：

我們希望這個函式盡可能的符合真實的屬性-標籤之間的關係，我們用歐氏距離來度量，**關係和真實關係的差距，當這個差距足夠小，我們就可以使用

來近似這種關係。

所以我們有如下最優化目標

這是乙個關於w的函式，取不同的資料集，有不同的結果，我們要求這個函式取最小值時的w ，當然我們可以選擇對函式求導，令導數等於0，就可以求解，我們不採取這種方法（在現實任務中，一階導數等於0這個式子不容易求解）。

我們選擇一種看上去比較蠢，但是實用的方式：對w一點點的調整，我們希望每一次調整，計算結果都在減小，這是乙個迭代過程，直到w的調整無法使函式值下降，我們認為此時的w是最優的w。（這就是梯度下降的基本思想）

設w每次的調整為：w-w0=ηv，因為w是乙個引數向量，所以其變化用η(步長，變化大小，標量)，v(變化方向，單位向量)來表示。我們需要求v（變化方向），使得函式的變化最快，在v未知的情況下，怎麼得到調整後的函式值呢？

此時就可以使用泰勒公式對函式值進行估計，表示如下（使用一階泰勒展開式）：

表示為w的方程為：

因為w-w0=ηv ，有：

因為每次引數w調整之後，函式值減小，有：

因為步長η是乙個標量，不影響符號，所以先省略，得到：

v是乙個單位向量，函式的導數也是乙個向量（函式增長方向），那麼兩個向量的乘積在什麼時候小於0呢？

如下是向量的乘積：

當cos(α)<0，時向量乘積小於0 ，因為我們希望下降速度是最快的，所以令cos(α) = -1，即兩個向量的方向相反。

那麼知道了v與f'(w0)方向相反，且是個單位向量，所以v為：

因為是個標量，那麼將它併入η ，則w的更新公式為：

這就是梯度下降法，梯度上公升是求最大值時用的，即把上式中的-換成+