NLP中的對抗樣本

自然語言處理方面的研究在近幾年取得了驚人的進步，深度神經網路模型已經取代了許多傳統的方法。但是，當前提出的許多自然語言處理模型並不能夠反映文字的多樣特徵。因此，許多研究者認為應該開闢新的研究方法，特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。

使用對抗樣本生成和防禦的自然語言處理研究可以基本概括為以下三種：1. 用未察覺的擾動迷惑模型，並評價模型在這種情況下的表現；2. 有意的改變深度神經網路的輸出；3. 檢測深度神經網路是否過於敏感或過於穩定，並尋找防禦攻擊的方法。

jia 和 liang 首先考慮在深度神經網路中採用對抗樣本生成（或者「對抗攻擊」，兩者皆可）方法完成文字處理相關任務。他們的研究在自然語言處理社群很快獲得了研究方面的關注。

然而，由於和文字資料內在的不同，用於影象的對抗攻擊方法無法直接應用與文字資料上。首先，影象資料（例如畫素值）是連續的，但文字資料是離散的。其次，僅僅對畫素值進行微小的改變就可以造成影象資料的擾動，而且這種擾動是很難被人眼察覺的。但是對於文字的對抗攻擊中，小的擾動很容易被察覺，但人類同樣能「猜出」本來表達的意義。因此 nlp 模型需要對可辨識的特徵魯棒，而不像視覺只需要對「不太重要」的特徵魯棒。

deepwordbug 的深度網路攻擊示例。選自 arxiv：1902.07285

與影象領域一樣，有進攻就會有防禦，目前也有很多研究嘗試構建更魯棒的自然語言處理模型。例如在 cmu 的一篇對抗性拼寫錯誤**（arxiv：1905.11268）中，研究者通過移除、新增或調序單詞內部的字元，以構建更穩健的文字分類模型。這些增減或調序都是一種擾動，就像人類也很可能出現這些筆誤一樣。通過這些擾動，模型能學會如何處理錯別字，從而不至於對分類結果產生影響。（我個人覺得擾動成像是筆誤的東西人類可能不是特別明顯地注意到，而且就算注意到，也知道正確的答案應該是什麼樣子，但模型卻不一定，在翻譯，情感分類，qa等方面都可能出錯。）

對抗性拼寫錯誤導致的情感誤分類，與通過字識別防禦手段獲得的更穩健模型。選自 arxiv：1905.11268

除了文字分類，也有很多研究者通過對抗訓練構建更穩健的翻譯系統。清華大學劉洋老師表示，如果我們修改原文的某個字，那麼很可能譯文就完全變了，目前的 nmt 系統並不是太穩健。

劉洋老師表示，目前比較多的方法是在訓練中加入雜訊而讓 nmt 模型學會抵禦隨機擾動。如下圖所示，x 是正確的輸入，會加一些雜訊以形成 x'。當我們用神經網路進行學習的時候，會生成兩種內部表示 h_x 和 h_x'。我們希望這兩種內部表示對於判別器 discriminator 是不可區分的，如果不可區分，就說明雜訊不會對**做出更大的影響。

其中雜訊可以是從真實資料獲取的人類誤差，也可以是隨機生成的雜訊。當機器翻譯模型能抵禦這些雜訊，那麼它就非常魯棒了。

nlp 對抗樣本攻防戰必讀**

雖然，自然語言領域的對抗攻防仍然有很多困難，但目前已經有一批優秀的**。最近清華大學楊承昊、豈凡超和臧原同學整理了乙份必讀**，其從整體的綜述**到攻擊、防禦方法介紹了該領域的前沿研究工作。如下僅展示了**名，具體的**位址可檢視原 github 專案。

綜述**

文字攻擊與防禦的**概述：

黑盒攻擊

白盒攻擊

同時**了黑盒和白盒攻擊

comparing attention-based convolutional and recurrent neural networks: success and limitations in machine reading comprehension. matthias blohm, glorianna jagfeld, ekta sood, xiang yu, ngoc thang vu. conll 2018.

deep text classification can be fooled. bin liang, hongcheng li, miaoqiang su, pan bian, xirong li, wenchang shi.ijcai 2018.

對抗防禦

評估

對文字攻擊和防禦研究提出新的評價方法：

NLP中的對抗樣本

HGD處理對抗樣本以防禦對抗攻擊

對抗樣本文章筆記（二）

chapter 16 對抗樣本和對抗訓練

NLP中的對抗樣本

HGD處理對抗樣本以防禦對抗攻擊

對抗樣本文章筆記（二）

chapter 16 對抗樣本和對抗訓練

相關推薦