對抗樣本提高機器學習模型的效能

20200827 -

今天編寫文章《dga生成與檢測 - **《deepdga: adversarially-tuned domain generation and detection》閱讀》時，那篇**最後的實驗中提到了增強機器學習模型的內容，順著這個思路在谷歌上進行了簡單的搜尋，找到了兩篇材料，本篇文章就對這兩篇文章的內容進行簡單的記錄。

（1）protecting the protector: hardening machine learning defenses against adversarial attacks

（2）hardening neural networks for computer security against adversarial attack

上述文章都提到了對抗樣本的概念，而且都是針對對抗樣本的攻擊來提高機器學習模型的效能。

文章1是微軟的部落格文章，通過列舉了一些防禦對抗樣本攻擊的措施，比如利用多層攻擊、利用雲服務等，這裡不再具體描述，文章很簡潔，可以直接去原文檢視。

這裡重點來說一說第二篇文章。

文章2中提出了相應的案例，通過在某個pe檔案上新增了一些字串，逃避了檢測系統的檢測，而且能夠達到100%，這個數值挺吸引人的。但我個人覺得很不可思議，有幾點疑惑：

1）攻擊者知道檢測模型的具體引數嗎？如果知道完全引數或者完全的檢測流程，那麼能構造這麼精巧的攻擊就不奇怪了，但是如果不知道，或者僅僅知道一部分，那就非常厲害了。個人感覺應該也是測試出來的。

2）檢測模型為什麼會這麼容易就被繞過呢？

這些疑惑，我沒有從文中得到解答，可能得等以後繼續思考了。

一般而言，檢測乙個惡意樣本首先要進行特徵的提取，在這個過程之後，才會有相應的模型檢測過程。那麼，僅僅簡單的通過插入字串，而且保持了原有樣本的功能性（文中提到），還能繞過檢測，個人感覺應該是知道了可能的模型引數，知道如果是某種型別就不會被檢測一樣。回到特徵的問題，這種通過修改樣本之後，繞過檢測肯定是一些重要特徵發生了變化，導致它到了正常樣本的區域。

那麼，如果要提高這種攻擊樣本的檢測能力，必須時保證整體的檢測模型（包括前面的特徵提取部分）能夠免除這種雜訊的影響。也就是說，它對於這部分的修改，特徵對於這部分內容的代表性不受影響。

文章2提出的解決方案就是，建立乙個被新增了字串的轉殖樣本，這個樣本與原始樣本的功能性一樣，只是新增了新的東西。

然後，在訓練的過程中，講這兩個樣本同時輸入（個人理解），然後在網路中，新增相應的懲罰向。這種方案很像之前的時候看到的那種孿生網路的形式。一旦兩個樣本發生了這種不同，就進行相應的懲罰。

這裡僅僅記錄這篇文章的思路，不進行具體展開。

雖然從文章2的描述中看來，對於這種新增字串的方式效果不錯。但是也引發我另外的思考，這種形式真的是對所有的對抗樣本都有效嗎？這個不好說。因為你構造樣本的時候，就是構造的這種，如果他修改了其他的特徵呢？所以這就是問題。

但這引出了另外的乙個重要的問題，那就是找出具備區分性的特徵，或者說，找到不受這種小干擾的特徵組合，保持原有的樣本的代表性特徵，這種方式才是最關鍵的。但是，實際情況可能更複雜。

對抗樣本提高機器學習模型的效能

對抗機器學習模型

如何評估機器學習模型的效能

機器學習模型效能提公升方案

對抗樣本 提高機器學習模型的效能

對抗機器學習模型

如何評估機器學習模型的效能

機器學習模型效能提公升方案

相關推薦

對抗樣本提高機器學習模型的效能