自然語言處理中一些常用的資料增強的方式

1. 加雜訊。加噪尤以去資訊為主（dropout）。比如隨機扔詞（每次扔一類詞，每次扔乙個詞），比如隨機在 embedding 上 dropout（這個幾乎所有 neural model 都加了）。有結構的 dropout 也就是所謂的 mask，即使用帶權的 mask 來遮蓋掉一些詞。

2.同義詞替換。我們可以隨機的選擇一些詞的同義詞來替換這些詞，比如：「她非常美麗」改為「她非常漂亮」。但是這種方法比較大的侷限性在於同義詞在 nlp 中通常具有比較相近的詞向量，因此對於模型來說，並沒有起到比較好的對資料增強的作用。

3. 反向翻譯。這是機器翻譯中一種非常常用的增強資料的方法，主要思想就是通過機器將乙個句子翻譯為另一種語言，再把另一種語言翻譯為原先的語言，得到乙個意思相近但表達方式可能不同的句子。這種方法不僅有同義詞替換、詞語增刪的能力，還具有對句子結構語序調整的效果，並能保持與原句子意思相近，是一種非常有效的資料增強方式。

4. 使用生成網路。使用gan或者vae這些生成式網路來生成一些資料。但這種方法的難點在於需要對 gan 模型的訓練達到比較好，才能更有效的生成高質量資料，這一點工作量相對較大也較為複雜。

參考：

自然語言處理中一些常用的資料增強的方式

自然語言處理的一些工具

自然語言處理常用資料集

自然語言處理的一些工具文件介紹

自然語言處理中一些常用的資料增強的方式

自然語言處理的一些工具

自然語言處理常用資料集

自然語言處理的一些工具文件介紹

相關推薦