換個角度看GAN 另一種損失函式

選自medium,作者：phúc lê,機器之心編譯,參與：張璽。

「本質上，gan 就是另一種損失函式。」

jeremy howardf 老師曾在生成對抗網路（gan）課程中說過：「……本質上，gan 就是另一種損失函式。」

從函式逼近的角度看神經網路

在數學中，我們可以把函式當做機器，往機器中輸入一或多個數字，它會相應地生成一或多個數字。

將函式比作「機器」或「黑箱」。（圖源：

如果我們能夠用數學公式表示函式，這很好。可如果大家不能或尚未想明白如何將想要的函式寫成一系列加減乘除（譬如分辨輸入是貓影象還是狗影象的函式）又該如何呢？

如果無法用公式表達，那我們能否至少逼近函式呢？

神經網路來拯救我們了。萬能逼近定理表明，乙個具有充足隱藏單元且足夠大的神經網路可以計算「任何函式」。

具備 4 個隱藏單元的簡單神經網路逼近塔型函式。（圖源：

神經網路的顯式損失函式

掌握神經網路後，我們就可以構建乙個神經網路以逐步逼近上文所述的貓狗分類函式，而無需顯式地表達該分類函式。

為了獲得更好的函式逼近能力，神經網路首先需要知道其當前效能有多差。計算神經網路誤差的方式被稱為損失函式。

目前已經有很多損失函式，對於損失函式的選擇依賴於具體任務。然而，所有損失函式具有乙個共同特性──它必須能以精確的數學表示式表示損失函式。

關於神經網路逼近特性的好壞，損失函式承擔著十分重要的作用。對於神經網路構建人員來說，針對具體任務去理解和選擇恰當的損失函式是最重要的技能。

目前，設計更好的損失函式也是活躍度極高的研究領域。譬如，**《focal loss for dense object detection》介紹了一種名為「focal loss」的新型損失函式，用於解決單階段目標檢測模型的不平衡性。

顯式損失函式的侷限

前文所述的損失函式在分類、回歸及影象分割等任務中的表現相當不錯，而針對輸出具有多模態分布的情況，則效果堪憂。

以黑白著色任務為例。

l2 損失函式的思考過程。（圖源：

gan 作為新的損失函式

首先，你並不知道複雜函式的精確數學表示式（比如函式的輸入是一組數字，輸出是一張狗狗的逼真影象），所以你使用神經網路逼近此函式。

神經網路需要損失函式告知它目前效能的好壞，但沒有任何顯式損失函式能夠很好的完成此項工作。

嗯，要是有一種既無需顯式數學表示式，又能夠直接逼近神經網路損失函式的方法，該多好。譬如神經網路？

所以，如果我們用神經網路模型替代顯式損失函式，將會怎樣？恭喜，你發現了 gan。

通過下面的 gan 架構和 alpha-gan 架構，你能觀察地更清晰。如圖，白色框代表輸入，粉色框和綠色框代表你想構建的網路，藍色框代表損失函式。

gan 架構。（圖源：

alpha-gan 架構。（圖源：

在原版 gan 中僅有一種損失函式——判別器網路 d，其自身就是另一種神經網路。

而在 alpha-gan 中，模型有 3 種損失函式：輸入資料的判別器 d、用於已編碼潛變數的潛碼判別器 c，以及傳統畫素級 l1 損失函式。其中，d 和 c 並不是顯式損失函式，而只是其近似──神經網路。

梯度

如果將判別器（同樣也是神經網路）作為損失函式來訓練生成器網路（與 alpha-gan 的編碼器），那麼用什麼損失函式來訓練判別器呢？

判別器的任務是區分真實資料分布與生成資料分布。用監督方式訓練判別器時，標籤可隨意使用，所以採用二元交叉熵等顯式損失函式訓練判別器就很簡單。

但由於判別器是生成器的損失函式，這代表判別器的二元交叉熵損失函式的累積梯度同樣會被用於更新生成器網路。

觀察 gan 中的梯度變化，就非常容易發現改變其軌跡的新思路。如果顯式損失函式的梯度無法在兩個神經網路間（判別器和生成器）回流，卻可以在三個神經網路間回流，那麼它能被應用在何處？如果梯度無法通過傳統損失函式回流，卻可在這些神經網路之間直接來回呢？從基本原理出發，我們很容易發現未被探索的路徑以及未被解答的問題。

結論

通過傳統損失函式與神經網路的整合，gan 使將神經網路作為損失函式來訓練另一神經網路成為可能。兩個神經網路間的巧妙互動使得深度神經網路能夠解決一些先前無法完成的任務（如生成逼真影象）。

換個角度看GAN 另一種損失函式

另一種尊重

另一種勝利

GAN是一種特殊的損失函式？

換個角度看GAN 另一種損失函式

另一種尊重

另一種勝利

GAN是一種特殊的損失函式？

相關推薦