深度學習總結一範數

對應**

w ∗=

argm

inw∑

il(y

i,f(

xi;w

))+λ

ψ(w)

w^* = argmin_w \sum_il(y_i, f(x_i;w)) + \lambda\psi(w)

w∗=arg

minw

i∑

l(yi

,f(

xi;

w))+

λψ(w

)監督學習過程：最小化誤差同時規劃引數。例如公式中的l項作用是擬合資料，

λ ψ(

w)\lambda\psi(w)

λψ(w)

項作用是防止過擬合，簡化模型使模型具有更好的泛化能力

當模型複雜化，產生過擬合時，可增大

\lambda

λ或者選擇其他形式的

ψ (w

)\psi(w)

ψ(w)，使

λ ψ(

w)\lambda\psi(w)

λψ(w)

所佔的比重增大，約束引數。

這裡挑選部分範數說明。

l0範數是指向量中非零元素的個數。如果用l0規則化乙個引數矩陣w，就是希望w中大部分元素是零，實現稀疏化。

l1範數也稱為曼哈頓距離。

如圖，目標函式是(w1,w2)空間上的等高線，l1範數則是乙個正方形。兩者最優解在相交於座標軸處。那麼存在乙個權重引數為0，即稀疏化。

l0和l1都可以實現稀疏化，不過一般選用l1而不用l0，原因包括：1）l0範數很難優化求解（np難）；2）l1是l0的最優凸近似，比l0更容易優化求解。（這一段解釋過於數學化，姑且當做結論記住）

l2範數也稱為歐幾里得距離和。

與l1範數不同的是l2範數與目標函式最優解並不在座標軸上，l2會選擇更多特徵。但因為l2範數的規則項||w||2 盡可能小，可以使得w每個元素都很小，接近於零。

深度學習學習總結

北京大學人工智慧實踐 tensorflow2.0 學習1 6章複習1 4章第4章需要寫乙個部落格寫4,5,6章吳恩達深度學習第四步卷積神經網路學習1 2周複習1 2周殘差網路和inception網路不太懂，目前用不到三四周是目標定位，人臉識別，神經風格轉換目前用不到油管最新最熱t...

深度學習 L1及L2範數

在深度學習中，監督類學習問題其實就是在規則化引數同時最小化誤差。最小化誤差目的是讓模型擬合訓練資料，而規則化引數的目的是防止模型過分擬合訓練資料。引數太多，會導致模型複雜度上公升，容易過擬合，也就是訓練誤差小，測試誤差大。因此，我們需要保證模型足夠簡單，並在此基礎上訓練誤差小，這樣訓練得到的引數才能...

深度學習（一）深度學習學習資料

持續更新一學習清單 1 收集了各種最新最經典的文獻，神經網路的資源列表 2 計算機視覺學習清單 3 機器學習學習清單二訓練資料人臉資料 1 香港中文大學訓練資料集此資料庫包含了20w張人臉，每張標註了5個特徵點以及幾十種屬性是否微笑膚色髮色性別等屬性 2 68個人臉特徵點 3 ...

深度學習總結一 範數

深度學習學習總結

深度學習 L1及L2範數

深度學習（一）深度學習學習資料

相關推薦

深度學習總結一範數