HGD處理對抗樣本以防禦對抗攻擊

2021-10-06 06:06:47 字數 1406 閱讀 3607

防禦效果

** 2018cvpr-defense against adversarial attacks using high-level representation guided denoiser.

對抗樣本通過向原始影象新增雜訊來構造,使得輸入模型後分類錯誤。如果在對抗樣本輸入模型之前,進行去噪處理,將攻擊者千方百計新增到原始影象上的輕微干擾去除,則可以得到與原始影象近似的去噪後影象,從而分類依舊正確。

之前提出畫素導向去噪器pgd(pixel guided denoiser),令x

xx表示原始的乾淨影象,x

∗x^*

x∗表示對抗樣本,x′x'

x′表示去噪後的影象。將損失函式定義為l=∣

∣x−x

′∣∣l=||x-x'||

l=∣∣x−

x′∣∣

,表示去噪後的影象與原始影象之間的差異。其中,∣∣.

∣∣||.||

∣∣.∣

∣表示l

1l_1

l1​範數。由於該損失函式是定義在影象畫素級別上的,因此命名為畫素導向去噪器。

然而pgd有乙個致命缺陷。去噪是相對性的,並不是絕對的,無論去噪過程多完善,總會存在殘餘的雜訊在影象上。而在dnn中,存在誤差放大效應。即殘餘的對抗雜訊在一層層中會被放大,使得最後的輸出存在的雜訊仍足以使dnn分類錯誤。

因此,作者提出了hgd高階表示指導去噪器(high-level representation guided denoiser)。

由於dnn存在誤差放大效應,故將損失函式定義在輸出層上。

令y

yy表示原始的乾淨影象通過dnn後的輸出,y

∗y^*

y∗表示對抗樣本的輸出,y′y'

y′表示去噪後的影象的輸出。將損失函式定義為l=∣

∣y−y

′∣∣l=||y-y'||

l=∣∣y−

y′∣∣

,表示去噪後的影象與原始影象的對應輸出之間的差異。hgd的目標是,追求損失函式的最小化。損失函式越小,說明去噪後影象與原影象的輸出差異越小,越接近初始影象,去噪效果越好。

根據選擇的網路層 l

ll 的不同,提出了兩種hgd。

針對l

0l_0

l0​以及l

2l_2

l2​攻擊的防禦效果不佳。原因在於這兩類攻擊限制了修改畫素的數量,在修改程度上限制比較少,個別畫素的被擾動程度可能過大,去噪效果不明顯。該防禦方法適用於l

∞l_\infty

l∞​攻擊。

NLP中的對抗樣本

自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網路模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文字的多樣特徵。因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。使用對抗樣本生成和防禦的自然語言處理研究可以...

對抗樣本文章筆記(二)

生 類完全無法識別,但dnn可以給出明確分類的影象。進化演算法 ea 選擇一張,進行隨機變異,若對某類的置信度高於擁有當前該類最高置信度的,就將新生成的替代當前最優。通過不斷地對新增干擾 選擇分類效果更好的來得到優勢,過程類似於生物進化時的突變 自然選擇。兩種編碼方式 間接編碼 通過cppn生成規則...

chapter 16 對抗樣本和對抗訓練

對抗樣本即是被用心構造出來,利用演算法的漏洞來被錯誤分類的樣本。舉個例子,前段時間有人發現,只要手持一類,監控裝置就無法將你識別為人類。前面的課程也有例子,一幅大象的,只要加上微不足道的噪點,演算法就會將它識別為別的東西。下面是另乙個例子 左右兩個熊貓在人眼看來毫無區別,但在左圖加上乙個精心構造的縮...