NLP中的資料增強

相關方法合集見：

較為簡單的資料增強的方法見**：

**中所使用的方法如下：

1. 同義詞替換（sr: synonyms replace）：不考慮stopwords，在句子中隨機抽取n個詞，然後從同義詞詞典中隨機抽取同義詞，並進行替換。（同義詞其詞向量可能也更加接近，在使用詞向量的模型中不一定有用）

2. 隨機插入(ri: randomly insert)：不考慮stopwords，隨機抽取乙個詞，然後在該詞的同義詞集合中隨機選擇乙個，插入原句子中的隨機位置。該過程可以重複n次。

3. 隨機交換(rs: randomly swap)：句子中，隨機選擇兩個詞，位置交換。該過程可以重複n次。

4. 隨機刪除(rd: randomly delete)：句子中的每個詞，以概率p隨機刪除。（類似於神經網路中的dropout）

第一列是訓練集的大小，第三列是每個句子生成的新句子數，第二列是每一條語料中改動的詞所佔的比例。

相關實現見：

還有些如打亂句子的順序，隨機進行mask，相比於直接複製能夠加入一些雜訊，以防止過擬合。

還有些通過神經網路進行資料增強的方法，但是代價相對較高，同時效果也不一定會好。

相關討論見：

不同的資料增強方式不能確切的說誰強誰弱，對於nlp任務而言，一切從資料出發，需要結合具體任務進行檢驗。

NLP資料增強方法

以下是一些針對文字的資料的增強方法隨機drop和shuffle 資料增強主要採取兩種方法,一種是 drop,對於標題和描述中的字或詞,隨機的進行刪除,用空格代替。另一種是 shuffle,即打亂詞序。對於如何評價 2017 知乎看山杯機器學習比賽?這個問題,使用 drop 對詞層面進行處理之後,...

NLP資料增強學習筆記

眾所周知，深度學習中的神經網路模型都是依靠資料驅動，優質的資料能夠顯著提公升模型的執行效果。通常來說，有監督學習的模型效能會好於無監督學習的模型。但是，有監督學習的模型需要大量的標註資料，而人工標註資料需要花費大量的人力物力，所以資料增強是一種有效的解決方案。1.傳統方法 2.深度學習方法半監督方...

NLP中資料增強的綜述，快速的生成大量的訓練資料

編譯 ronghuaiyang 正文共 4345 字 21 圖深度學習視覺領域的增強方法可以很大程度上提高模型的表現，並減少資料的依賴，而nlp上做資料增強不像在影象上那麼方便，但還是有一些方法的。與計算機視覺中使用影象進行資料增強不同，nlp中文字資料增強是非常罕見的。這是因為影象的一些簡單操作...

NLP中的資料增強

NLP資料增強方法

NLP資料增強學習筆記

NLP中資料增強的綜述，快速的生成大量的訓練資料

相關推薦