花書讀書筆記(七) 深度模型中的優化

2021-10-16 22:27:30 字數 601 閱讀 1724

全部筆記的彙總貼:《深度學習》花書-讀書筆記彙總貼

在大多數機器學習問題中,我們關注某些效能度量p

pp,其定義於測試集上並且可能是不可解的。因此,我們只是間接地優化p

pp。我們希望通過降低代價函式j(θ

)j(θ)

j(θ)

來提高p

pp。這一點與純優化不同,純優化最小化目標j

jj本身。

優化通常是乙個極其困難的任務。傳統的機器學習會小心設計目標函式和約束,以確保優化問題是凸的,從而避免一般優化問題的複雜度。在訓練神經網路時,我們肯定會遇到一般的非凸情況。即使是凸優化,也並非沒有任何問題。

訓練深度模型是乙個足夠困難的問題,以致於大多數演算法都很大程度地受到初始化選擇的影響。

現代的初始化策略是簡單的、啟發式的。設定改進的初始化策略是一項困難的任務,因為神經網路優化至今還未被很好地理解。

通常情況下,我們可以為每個單元的偏置設定啟發式挑選的常數,僅隨機初始化權重。額外的引數(例如用於編碼**條件方差的引數)通常和偏差一樣設定為啟發式選擇的常數。

學習率是難以設定的超引數之一,因為它對模型的效能有顯著的影響。動量演算法可以在一定程度緩解這些問題,但這樣做的代價是引入了另乙個超引數。

《深度學習》花書 讀書筆記彙總貼(彙總19 19)

本人學習所有系列 彙總帖 第一章 前言 沒啥好說的,自己看看內容就行 花書讀書筆記 一 線性代數 花書讀書筆記 二 概率與資訊理論 花書讀書筆記 三 數值計算 花書讀書筆記 四 機器學習基礎 花書讀書筆記 五 深度前饋網路 花書讀書筆記 六 深度學習中的正則化 花書讀書筆記 七 深度模型中的優化 花...

花書讀書筆記(三) 數值計算

全部筆記的彙總貼 深度學習 花書 讀書筆記彙總貼 一種極具毀滅性的捨入誤差是下溢 under ow 當接近零的數被四捨五入為零時發生下溢。另乙個極具破壞力的數值錯誤形式是上溢 over ow 當大量級的數被近似為 infty 或 infty 時發生上溢。必須對上溢和下溢進行數值穩定的乙個例子是 so...

花書讀書筆記(十四) 表示學習

全部筆記的彙總貼 深度學習 花書 讀書筆記彙總貼 我們可以將監督學習訓練的前饋網路視為表示學習的一種形式。具體地,網路的最後一層通常是線性分類器,如 softmax 回歸分類器。網路的其餘部分學習出該分類器的表示。監督學習訓練模型,一般會使得模型的各個隱藏層 特別是接近頂層的隱藏層 的表示能夠更加容...