梯度下降 機器學習 李巨集毅

2022-08-22 01:48:13 字數 1095 閱讀 8963

調整學習率learning rate

自適應學習率

adagrad演算法

一般梯度下降:

\[l=\sum_n(\tilde^n - (b+\sum w_ix_i^n))^2 \\

w^\gets w^t-\eta^tg^t\\

\eta^t=\frac}

\]adagrad:

\[w^\gets w^t-\fracg^t\\

g^t=\frac\\

\eta^t = \frac}\\

\sigma^t=\sqrt\sum^t_(g^i)^2}

\]化簡:

\[w^\gets w^t-\frac(g^i)^2}}g^t\\

\]隨機梯度下降 stochastic gradient descent

特徵縮放

泰勒展開式

如果\(h(x)在x=x_0\) 點的某個領域內有無限階導數,則有泰勒級數:

\[\begin

h(x)&=\sum^\infty_\frac(x-x_0)^k\\

&=h(x_0)+h'(x_0)(x-x_0)+\frac(x-x_0)^2+...

\end

\]二元泰勒:

\[h(x,y)=h(x_0,y_0)+\frac(x-x_0)+\frac(y-y_0)+...

\]梯度下降理論基礎

在小範圍的圓裡面找到最小值,然後不斷遞迴,直到找到全域性最小值。

基於泰勒展開式,化簡:

兩個向量內積如何最小,一定是反向180°即可。因此有:

最後有:

梯度下降法的侷限

李巨集毅機器學習 Introduction

人工智慧是我們想要達到的目標,即讓機器和人一樣智慧型。而機器學習是方法,讓機器從資料中學習,從而得到智慧型的方法。智慧型是什麼呢?對於人類智慧型而言,根據霍華德 加德納的多元智慧型理論,人類的智慧型分為以下七種智慧型 這不僅涵蓋了現在人工智慧的研究領域,計算機視覺 語音識別 自然語言處理等。而且也指...

李巨集毅機器學習課程筆記 3 梯度下降精講

梯度下降可以優化損失函式的值,使其盡量小,即可找到最好 在資料集上擬合效果最好 的模型引數。現在假設模型 f 中只有乙個引數 w 則損失函式為 l f l w 梯度下降演算法如下 若模型有多個引數,按相同方法更新各引數 初始化引數 隨機選取乙個 w 0 w 0 並不一定是隨機選取 令 w w 0 計...

李巨集毅機器學習attack model 學習筆記

loss函式及限制條件 無目標攻擊 l 負的 y 與y true 交叉熵 輸入的x 使y 與y true越遠越好 有目標攻擊 輸入的x 使y 與y true越遠越好且y 與y false越近越好 限制條件 x與x0距離需要小於乙個值,不被發現,否則攻擊就無意義 攻擊的目標是x在乙個小的變化內使模型失...