條件BERT資料增廣

資料增廣是在任務資料量稀缺時非常有用的方法。文章《conditional bert contextual augmentation》通過改變bert的輸入，在原始bert模型上fine-tune,將預訓練語言模型引入資料增廣任務中，並取得了很好的效果。

資料增廣是深度學習中常用的技巧之一，主要用於增加訓練資料集，讓資料集盡可能的多樣化，使得訓練的模型具有更強的泛化能力，提公升模型在任務上效果。

現有的文字資料增廣的方法在特定領域和通用領域不同。在特定領域通常通過人工設定的規則來增廣資料。在通用領域通常通過基於替換的方式來增廣資料。這些方法不靈活，且不能保證增廣的資料的質量。

本文通過改變bert的輸入，將句子的標籤加入到輸入中，fine-tune bert模型，為文字分類任務做資料增廣，在多個文字分類任務中達到目前最好效果。

作者在6中分類資料集上測試了條件bert資料增廣的效果，所用資料集如下所示：

conditional bert

conditional bert的結構和bert的結構是一樣的，只是在輸入和訓練方式不同。

bert的輸入是詞嵌入,段嵌入和位置嵌入三者的加和。但是段嵌入與句子的正在的標註label沒有聯絡。所以mlm**的詞並不一定與原詞是相同的label。

例如：this actor is good. 當把good 遮掉，**出bad或boring等消極的詞。這種情況對資料增廣的效果是非常不利的。

conditional masked language model

通過將bert的段嵌入替換為label 嵌入，把遮掉詞的上下文和label都考慮進去，來**該詞。在有標籤資料資料上通過conditional mlm任務來訓練conditional bert。

作者分別做了基於cnn的分類器和基於rnn的分類器, 在6個資料集上，做資料增廣，再做文字分類的實驗。比較直接用bert，conditional bert和之前的方法的效果，發現conditional bert做資料增廣的效果最好，實驗結果如下：

並且作者通過實驗發現只需要經過少數幾個epochs的fine-tune, conditional bert的效果就超過了bert，以下是conditional bert在不同資料集上超過bert所需要的epochs的實驗結果

探索在非均衡資料集上使用預訓練語言模型做資料增廣

將該方法應用到篇章以及文件級的資料增廣中

掃碼識別關注，獲取更多**解讀