對抗機器學習模型

隨著ai時代機器學習模型在實際業務系統中愈發無處不在，模型的安全性也變得日漸重要。機器學習模型很可以會遭到惡意攻擊，比較直接就能想到的如：人臉識別模型的攻擊。訓練出具有對抗性的機器學習模型，在業務系統存在著越來越重要的實際意義。

機器學習模型攻擊要做的事情如下圖所示：

假設我們有乙個network用來做動物的影象識別。我們輸入一張如圖所示的x

0x^0

x0，network**為「tiger cat」。機器學習模型攻擊是在x

0x^0

x0上加上乙個微小的噪音δ

x\delta x

δx，使得看起來還是乙隻「tiger cat」，但是通過network的**結果卻是其他動物了。

如上圖所示，如果做影象分類，損失函式為：

其中，影象輸入x

0x^0

x0是固定的。那麼攻擊模型的損失函式也可用類似的方式定義出來：

上述兩種損失函式還需要滿足一定的約束，就是不能與原來的有太大的差異，即：

距離 d 通常的定義方式有：

attack gradient descent 相當於就是有了一定限制的gradient descent。每一步在對x

xx做更新後，都要計算是否符合限制：

如果不符合，我們就把它調整為符合限制的x

xx。如何調整呢？簡而言之，就是把更新後的x

tx^t

xt拉到符合限制區域的最近的向量上，用它來替代x

fgsm（fast gradient sign method）是一種非常快捷的attack方法：只進行一次求梯度，並取其各個位上的符號作為結果 δ

x\delta x

δx；更新時根據 δ

x\delta x

δx直接加減 ε

該方法相當於使用了非常大的學習率，並且採用l-infinity距離，再把x

xx拉回到正方形的角上。

2.4 black box attack

之前講的都是白盒攻擊，即模型的網路結構我們都是知道的。那麼，如果乙個未知結構的black模型，該如何攻擊？很神奇的是，我們只要用相同的資料訓練某個自定義結構的proxy模型，在該proxy模型上做attack，black模型也能被很好的attack了。下表為proxy-black attack後的正確率：

2.5 more …講完attack，我們來講怎麼defense。

2.1 passive defense

passive defense 主要是思想是在給模型做層「保護罩」。

2.1.1 smoothing filter

做一層簡單的平滑過濾，也能很好的防禦attack：

用不同壓縮的特徵進行**，根據**結果之間的距離來判定該輸入是否被attack：

2.1.3 randomization

對輸入對做一些隨機對改變（如尺寸、填充）,然後再輸入到模型中：

2.2 proactive defense

proactive defense 的主要思想是：找出漏洞，補起來。直觀的去想，做法也很簡單：

對抗機器學習模型

對抗樣本提高機器學習模型的效能

機器學習模型如何口述機器學習模型原理

機器學習模型 SVM

對抗機器學習模型

對抗樣本 提高機器學習模型的效能

機器學習模型 如何口述機器學習模型原理

機器學習模型 SVM

相關推薦

對抗樣本提高機器學習模型的效能

機器學習模型如何口述機器學習模型原理