深度學習總結一 範數

2021-08-29 01:36:49 字數 1404 閱讀 8649

對應**

w ∗=

argm

inw∑

il(y

i,f(

xi;w

))+λ

ψ(w)

w^* = argmin_w \sum_il(y_i, f(x_i;w)) + \lambda\psi(w)

w∗=arg

minw

​i∑​

l(yi

​,f(

xi​;

w))+

λψ(w

)監督學習過程:最小化誤差同時規劃引數。例如公式中的l項作用是擬合資料,

λ ψ(

w)\lambda\psi(w)

λψ(w)

項作用是防止過擬合,簡化模型使模型具有更好的泛化能力

當模型複雜化,產生過擬合時,可增大

λ

\lambda

λ或者選擇其他形式的

ψ (w

)\psi(w)

ψ(w),使

λ ψ(

w)\lambda\psi(w)

λψ(w)

所佔的比重增大,約束引數。

這裡挑選部分範數說明。

l0範數是指向量中非零元素的個數。如果用l0規則化乙個引數矩陣w,就是希望w中大部分元素是零,實現稀疏化。

l1範數也稱為曼哈頓距離。

如圖,目標函式是(w1,w2)空間上的等高線,l1範數則是乙個正方形。兩者最優解在相交於座標軸處。那麼存在乙個權重引數為0,即稀疏化。

l0和l1都可以實現稀疏化,不過一般選用l1而不用l0,原因包括:1)l0範數很難優化求解(np難);2)l1是l0的最優凸近似,比l0更容易優化求解。(這一段解釋過於數學化,姑且當做結論記住)

l2範數也稱為歐幾里得距離和。

與l1範數不同的是l2範數與目標函式最優解並不在座標軸上,l2會選擇更多特徵。但因為l2範數的規則項||w||2 盡可能小,可以使得w每個元素都很小,接近於零。

深度學習學習總結

北京大學人工智慧實踐 tensorflow2.0 學習1 6章 複習1 4章 第4章需要寫乙個部落格 寫4,5,6章 吳恩達深度學習第四步 卷積神經網路 學習1 2周 複習1 2周 殘差網路和inception網路不太懂,目前用不到 三四周是目標定位,人臉識別,神經風格轉換目前用不到 油管最新最熱t...

深度學習 L1及L2範數

在深度學習中,監督類學習問題其實就是在規則化引數同時最小化誤差。最小化誤差目的是讓模型擬合訓練資料,而規則化引數的目的是防止模型過分擬合訓練資料。引數太多,會導致模型複雜度上公升,容易過擬合,也就是訓練誤差小,測試誤差大。因此,我們需要保證模型足夠簡單,並在此基礎上訓練誤差小,這樣訓練得到的引數才能...

深度學習(一)深度學習學習資料

持續更新 一 學習清單 1 收集了各種最新最經典的文獻,神經網路的資源列表 2 計算機視覺學習清單 3 機器學習學習清單 二 訓練資料 人臉資料 1 香港中文大學訓練資料集 此資料庫包含了20w張人臉,每張標註了5個特徵點 以及幾十種屬性 是否微笑 膚色 髮色 性別等屬性 2 68個人臉特徵點 3 ...