自然語言處理中一些常用的資料增強的方式

2021-10-03 21:25:12 字數 639 閱讀 3313

1. 加雜訊。加噪尤以去資訊為主(dropout)。比如隨機扔詞(每次扔一類詞,每次扔乙個詞),比如隨機在 embedding 上 dropout(這個幾乎所有 neural model 都加了)。有結構的 dropout 也就是所謂的 mask,即使用帶權的 mask 來遮蓋掉一些詞。

2.同義詞替換。我們可以隨機的選擇一些詞的同義詞來替換這些詞,比如:「她非常美麗」 改為 「她非常漂亮」。但是這種方法比較大的侷限性在於同義詞在 nlp 中通常具有比較相近的詞向量,因此對於模型來說,並沒有起到比較好的對資料增強的作用。

3. 反向翻譯。這是機器翻譯中一種非常常用的增強資料的方法,主要思想就是通過機器將乙個句子翻譯為另一種語言,再把另一種語言翻譯為原先的語言,得到乙個意思相近但表達方式可能不同的句子。這種方法不僅有同義詞替換、詞語增刪的能力,還具有對句子結構語序調整的效果,並能保持與原句子意思相近,是一種非常有效的資料增強方式。

4. 使用生成網路。使用gan或者vae這些生成式網路來生成一些資料。但這種方法的難點在於需要對 gan 模型的訓練達到比較好,才能更有效的生成高質量資料,這一點工作量相對較大也較為複雜。

參考:

自然語言處理的一些工具

斯坦福的corenlp,可以用來entities的提取。關於情感分析 情感分析的詞庫,sentiment word wordnet 是近義詞詞典 sentiwordnet 基於wordnet的,現在已經 3.0了 sentiwords 基於sentiwords的 中文的 情感詞典 1.知網的情感詞典...

自然語言處理常用資料集

最近需要從文字中抽取結構化資訊,收集到很多資料,遂整理了一下,後續會不斷更新。涉及內容包括 中英文敏感詞 語言檢測 中外手機 歸屬地 運營商查詢 名字推斷性別 手機號抽取 身份證抽取 郵箱抽取 中日文人名庫 中文縮寫庫 拆字詞典 詞彙情感值 停用詞 反動詞表 暴恐詞表 繁簡體轉換 英文模擬中文發音 ...

自然語言處理的一些工具文件介紹

preface 在自然語言處理的道路上,不知不覺地漸行漸遠,查詢資料見過很多任務具,也看過很多文件,依然還是過不好這一生。積累太少了,查詢資料雖多,實際應用上卻很少,記錄下來接觸過的一些nlp的工具。更新中.我愛自然語言處理 我愛機器學習 一 ner 命名實體識別 crfsuite crf ners...