花書讀書筆記（七）深度模型中的優化

全部筆記的彙總貼：《深度學習》花書-讀書筆記彙總貼

在大多數機器學習問題中，我們關注某些效能度量p

pp，其定義於測試集上並且可能是不可解的。因此，我們只是間接地優化p

pp。我們希望通過降低代價函式j(θ

)j(θ)

j(θ)

來提高p

pp。這一點與純優化不同，純優化最小化目標j

jj本身。

優化通常是乙個極其困難的任務。傳統的機器學習會小心設計目標函式和約束，以確保優化問題是凸的，從而避免一般優化問題的複雜度。在訓練神經網路時，我們肯定會遇到一般的非凸情況。即使是凸優化，也並非沒有任何問題。

訓練深度模型是乙個足夠困難的問題，以致於大多數演算法都很大程度地受到初始化選擇的影響。

現代的初始化策略是簡單的、啟發式的。設定改進的初始化策略是一項困難的任務，因為神經網路優化至今還未被很好地理解。

通常情況下，我們可以為每個單元的偏置設定啟發式挑選的常數，僅隨機初始化權重。額外的引數（例如用於編碼**條件方差的引數）通常和偏差一樣設定為啟發式選擇的常數。

學習率是難以設定的超引數之一，因為它對模型的效能有顯著的影響。動量演算法可以在一定程度緩解這些問題，但這樣做的代價是引入了另乙個超引數。

本人學習所有系列彙總帖第一章前言沒啥好說的，自己看看內容就行花書讀書筆記一線性代數花書讀書筆記二概率與資訊理論花書讀書筆記三數值計算花書讀書筆記四機器學習基礎花書讀書筆記五深度前饋網路花書讀書筆記六深度學習中的正則化花書讀書筆記七深度模型中的優化花...

全部筆記的彙總貼深度學習花書讀書筆記彙總貼一種極具毀滅性的捨入誤差是下溢 under ow 當接近零的數被四捨五入為零時發生下溢。另乙個極具破壞力的數值錯誤形式是上溢 over ow 當大量級的數被近似為 infty 或 infty 時發生上溢。必須對上溢和下溢進行數值穩定的乙個例子是 so...

全部筆記的彙總貼深度學習花書讀書筆記彙總貼我們可以將監督學習訓練的前饋網路視為表示學習的一種形式。具體地，網路的最後一層通常是線性分類器，如 softmax 回歸分類器。網路的其餘部分學習出該分類器的表示。監督學習訓練模型，一般會使得模型的各個隱藏層特別是接近頂層的隱藏層的表示能夠更加容...

花書讀書筆記（七） 深度模型中的優化