深度學習計畫(1)損失函式

2021-10-09 14:11:57 字數 1157 閱讀 6011

若乙個資訊出現的頻率較大,它的不確定性較低,其他出現頻率較低的,則不確定性較高。用於評價這個不確定性的就是資訊熵。

有定義:資訊熵代表的是隨機變數或整個系統的不確定性,熵越大,隨機變數或系統的不確定性就越大

有公式:

有定義:交叉熵,其用來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小

有公式:

交叉熵越低,這個策略就越好,最低的交叉熵也就是使用了真實分布所計算出來的資訊熵。

2.1 方差代價函式非常好理解,即最小化樣本標籤和模型輸出的距離。但我們常常不用方差函式 作為代價函式,這是因為方差代價函式的兩個缺點:

缺點1:方差代價函式如下圖所示,是非凸函式,導致模型可能會落入區域性最優解中,這不利於我們求解全域性最優解。

缺點2:配合使用sigmoid啟用函式時,存在梯度更新過慢的問題。如下圖所示。當**值越接近0或1時,sigmoid函式的梯度越平滑,所以計算速度上偏慢。

2.2 這時候交叉熵就可以很好的衡量輸出與真實標籤的距離。

若在二分類問題中,單一樣本對應真實標籤(y=1,1-y=0)的輸出概率為(yhat,1-yhat),那麼根據交叉熵公式,計算:

(注:前面的負號是將交叉熵公式裡的分號提出來)

我們再將所有樣本的交叉熵加起來,就得到了整個樣本集資訊的交叉熵,為了避免個別極端的值影響結果,再除以整個樣本數目,得到交叉熵的均值,用j表示,也叫做損失函式。均值可以減小得到的j值,使得在多次迭代計算j時,減小j的波動範圍。

好了,現在用來衡量輸出和真實差異的函式已經構造完成,那麼如何最小化這個差異?

深度學習損失函式

在利用深度學習模型解決有監督問題時,比如分類 回歸 去噪等,我們一般的思路如下 在第2步中,我們通常會見到多種損失函式的定義方法,常見的有均方誤差 error of mean square 最大似然誤差 maximum likelihood estimate 最大後驗概率 maximum poste...

深度學習 損失函式

深度學習中損失函式是整個網路模型的 指揮棒 通過對 樣本和真實樣本標記產生的誤差反向傳播指導網路引數學習。分類任務的損失函式 假設某分類任務共有n個訓練樣本,針對網路最後分層第 i 個樣本的輸入特徵為 xixi 其對應的標記為yiyi是最終的分類結果 c個分類結果中的乙個 h h1,h2,hch1,...

深度學習常用損失函式

損失函式的作用是衡量實際輸出與預計輸出之間的差異,損失函式的設計是深度學習中十分重要的部分,不僅會影響到訓練的速度,還會影響隱含層中資料的分布情況。目前僅僅是總結了部分常用損失函式的計算方法,其中涉及很多統計學最優化知識,對此僅僅是淺嘗輒止,其中更多的原理還需要以後慢慢總結體會,以下僅簡要記錄其計算...