HGD處理對抗樣本以防禦對抗攻擊

防禦效果

** 2018cvpr-defense against adversarial attacks using high-level representation guided denoiser.

對抗樣本通過向原始影象新增雜訊來構造，使得輸入模型後分類錯誤。如果在對抗樣本輸入模型之前，進行去噪處理，將攻擊者千方百計新增到原始影象上的輕微干擾去除，則可以得到與原始影象近似的去噪後影象，從而分類依舊正確。

之前提出畫素導向去噪器pgd（pixel guided denoiser），令x

xx表示原始的乾淨影象，x

∗x^*

x∗表示對抗樣本，x′x'

x′表示去噪後的影象。將損失函式定義為l=∣

∣x−x

′∣∣l=||x-x'||

l=∣∣x−

x′∣∣

，表示去噪後的影象與原始影象之間的差異。其中，∣∣.

∣∣||.||

∣∣.∣

∣表示l

1l_1

l1範數。由於該損失函式是定義在影象畫素級別上的，因此命名為畫素導向去噪器。

然而pgd有乙個致命缺陷。去噪是相對性的，並不是絕對的，無論去噪過程多完善，總會存在殘餘的雜訊在影象上。而在dnn中，存在誤差放大效應。即殘餘的對抗雜訊在一層層中會被放大，使得最後的輸出存在的雜訊仍足以使dnn分類錯誤。

因此，作者提出了hgd高階表示指導去噪器（high-level representation guided denoiser）。

由於dnn存在誤差放大效應，故將損失函式定義在輸出層上。

令y

yy表示原始的乾淨影象通過dnn後的輸出，y

∗y^*

y∗表示對抗樣本的輸出，y′y'

y′表示去噪後的影象的輸出。將損失函式定義為l=∣

∣y−y

′∣∣l=||y-y'||

l=∣∣y−

y′∣∣

，表示去噪後的影象與原始影象的對應輸出之間的差異。hgd的目標是，追求損失函式的最小化。損失函式越小，說明去噪後影象與原影象的輸出差異越小，越接近初始影象，去噪效果越好。

根據選擇的網路層 l

ll 的不同，提出了兩種hgd。

針對l

0l_0

l0以及l

2l_2

l2攻擊的防禦效果不佳。原因在於這兩類攻擊限制了修改畫素的數量，在修改程度上限制比較少，個別畫素的被擾動程度可能過大，去噪效果不明顯。該防禦方法適用於l

∞l_\infty

l∞攻擊。

HGD處理對抗樣本以防禦對抗攻擊

NLP中的對抗樣本

對抗樣本文章筆記（二）

chapter 16 對抗樣本和對抗訓練

HGD處理對抗樣本以防禦對抗攻擊

NLP中的對抗樣本

對抗樣本文章筆記（二）

chapter 16 對抗樣本和對抗訓練

相關推薦