對deep learning的第一周調研

以下僅是我的個人認識，說得不對請輕拍。

（目前，我只看了一些deep learning 的review和tom mitchell的書《machine learning》中的神經網路一章，認識有限。感覺3\4講得一般，勉強一看。第五章純粹是為了做筆記，真的不好表達，看不懂還是看tom的書吧。）

1.我對deep learning的總體認識

deep learning是一類基於人工神經網路的方法總稱。多層神經網路，由輸入層、輸出層、還有多層隱藏層構成。一般，在神經網路的輸入層輸入的是物件的基本表示，隱藏層是物件的另一種特徵表示，低層的隱藏層表示物件的低階特徵表示，高層的隱藏層表示物件的高階特徵表示，每層的特徵表示通過層與層之間係數來表徵，神經網路就是從低階特徵表示中提取出物件的高階特徵的，輸出層輸出物件的具體型別。拿影象識別的列子來說，迭代訓練時，就是從輸入層輸入影象的畫素，然後抽取影象的高階特徵，不停地改變神經網路的係數使得輸入影象的畫素在最後的輸出層能夠輸出影象的正確型別（說的比較牽強）。

2.發展簡史

在20世紀40年代，有人根據神經細胞的執行機制提出了感知器模型（單個人工神經元），到了20世紀60年代，由於單層的感知器模型表徵能力不強，研究熱度下降。20世紀80年代，有人提出了反向傳播演算法，實現了多層網路的訓練，但一般都是訓練3層的網路，因為訓練更多層時bp就不夠用了。人工神經網路，越多層，它的表徵能力就越厲害，隱藏層所需要的節點數也就越少。所以人工神經網路的研究又受到限制了。到了2023年，hinton大神發表了《deep belief network》這篇文章，提出了分層訓練的方法，使得人工神經網路的研究再次火起來。

3.感知器模型

上圖就是感知器的最初模型。它分為輸入部分：x1,x2,…,xn和各個輸入對應的係數w1,w2,…,wn（亦稱權向量）還有閾值w0,以及啟用函式o和輸出。感知器模型是簡單的線性分類模型，當輸入的線性組合（w1.x1+w2.x2+…+wn.xn）大於閾值(w0)時，啟用函式輸出1，否則輸出-1。如果把w0也歸為乙個輸入的係數，那麼上圖中的公式就可以解釋通了。當扔資料進去訓練資料，調整好感知器的係數後，感知器就成為乙個有用的分類器。如下圖：啟用函式就是那條直線。

感知器模型只能表徵線性方差，不能表徵非線性函式，注定是要被改進的。

4.感知器的梯度下降訓練方法

對感知器的訓練的就是學習最合適的係數，使得係數能夠最好地表徵啟用函式，或者說使得感知器相對於某固定的訓練樣本的誤差最小。

用數學來表達是這樣的：

啟用函式表達為：o=w0+w1.x1+…+wn.xn

誤差用公式

那麼現在的任務就是調整函式使得e達到最小。

這其實是乙個優化問題。

假設現在只有兩個係數w0和w1，那麼e和w0和w1的關係如下圖：

箭頭顯示該點的梯度的相反方向，指出了在w0和w1平面中沿誤差曲面最陡峭的方向。從圖中可以看出只要沿著這個方向就能下降就能到誤差曲面中誤差e最小的那一點。

怎麼辦？

為了最小化e，從乙個任意的初始權向量開始，然後以很小的步伐修改這個向量。每一步都沿著誤差曲面產生最陡峭下降的方向修改權向量，迴圈這個過程直到e最小。

梯度求法如下圖：

每次的修改：

5.反向傳播演算法（bp）

多個線性單元的連線仍產生線性函式，而我們更希望得到能表徵非線性函式的網路。感知器模型是做不到了，但是sigmoid單元可以。sigmoid單元將用作bp演算法訓練的神經網路的神經元。

與感知器模型不同的是，sigmoid單元的啟用函式換了而已。如下圖

好了。回到bp演算法上來。

多層網路，如圖：

bp是怎樣訓練多層網路的？

答：還是用梯度下降方法，只不過改進了一下。

bp既然是用梯度下降方法的改進來訓練多層網路，那麼誤差e是怎樣定義的呢？

答：

其中，outputs是網路輸出單元的集合，tkd是訓練樣例d在第k個輸出單元的目標輸出值。okd是訓練樣例在第k個輸出單元的實際輸出值。對於網路的每個輸出單元（最後一層的單元）k，它的誤差項為

對於以上e的定義發問，隱藏層的神經元有目標輸出值這麼個定義嗎？如果沒有，那麼e有是怎麼定義的？

答：對於每個隱藏單元h，它的誤差項為

那麼，最終每個權值就可以按這個公式更新了：

以上說的yita都是學習率。

對deep learning的第一周調研

DeepLearning 吳恩達深度學習第三課筆記

deep learning書的閱讀

Deep Learning的基本思想

對deep learning的第一周調研

DeepLearning 吳恩達深度學習第三課筆記

deep learning書的閱讀

Deep Learning的基本思想

相關推薦