梯度下降機器學習李巨集毅

調整學習率learning rate

自適應學習率

adagrad演算法

一般梯度下降：

\[l=\sum_n(\tilde^n - (b+\sum w_ix_i^n))^2 \\

w^\gets w^t-\eta^tg^t\\

\eta^t=\frac}

\]adagrad：

\[w^\gets w^t-\fracg^t\\

g^t=\frac\\

\eta^t = \frac}\\

\sigma^t=\sqrt\sum^t_(g^i)^2}

\]化簡：

\[w^\gets w^t-\frac(g^i)^2}}g^t\\

\]隨機梯度下降 stochastic gradient descent

特徵縮放

泰勒展開式

如果\(h(x)在x=x_0\) 點的某個領域內有無限階導數，則有泰勒級數：

\[\begin

h(x)&=\sum^\infty_\frac(x-x_0)^k\\

&=h(x_0)+h'(x_0)(x-x_0)+\frac(x-x_0)^2+...

\end

\]二元泰勒：

\[h(x,y)=h(x_0,y_0)+\frac(x-x_0)+\frac(y-y_0)+...

\]梯度下降理論基礎

在小範圍的圓裡面找到最小值，然後不斷遞迴，直到找到全域性最小值。

基於泰勒展開式，化簡：

兩個向量內積如何最小，一定是反向180°即可。因此有：

最後有：

梯度下降法的侷限

人工智慧是我們想要達到的目標，即讓機器和人一樣智慧型。而機器學習是方法，讓機器從資料中學習，從而得到智慧型的方法。智慧型是什麼呢？對於人類智慧型而言，根據霍華德加德納的多元智慧型理論，人類的智慧型分為以下七種智慧型這不僅涵蓋了現在人工智慧的研究領域，計算機視覺語音識別自然語言處理等。而且也指...

梯度下降可以優化損失函式的值，使其盡量小，即可找到最好在資料集上擬合效果最好的模型引數。現在假設模型 f 中只有乙個引數 w 則損失函式為 l f l w 梯度下降演算法如下若模型有多個引數，按相同方法更新各引數初始化引數隨機選取乙個 w 0 w 0 並不一定是隨機選取令 w w 0 計...

loss函式及限制條件無目標攻擊 l 負的 y 與y true 交叉熵輸入的x 使y 與y true越遠越好有目標攻擊輸入的x 使y 與y true越遠越好且y 與y false越近越好限制條件 x與x0距離需要小於乙個值，不被發現，否則攻擊就無意義攻擊的目標是x在乙個小的變化內使模型失...

梯度下降 機器學習 李巨集毅