Roberta的原理介紹

常用中文預訓練語言模型介面：

介面roberta中文預訓練模型：roberta for chinese：

1. 靜態masking vs 動態masking

原來bert對每乙個序列隨機選擇15%的tokens替換成[mask]，為了消除與下游任務的不匹配，還對這15%的tokens進行（1）80%的時間替換成[mask]；（2）10%的時間不變；（3）10%的時間替換成其他詞。但整個訓練過程，這15%的tokens一旦被選擇就不再改變，也就是說從一開始隨機選擇了這15%的tokens，之後的n個epoch裡都不再改變了。這就叫做靜態masking。

而roberta一開始把預訓練的資料複製10份，每乙份都隨機選擇15%的tokens進行masking，也就是說，同樣的一句話有10種不同的mask方式。然後每份資料都訓練n/10個epoch。這就相當於在這n個epoch的訓練中，每個序列的被mask的tokens是會變化的。這就叫做動態masking。

那麼這樣改變是否真的有效果？作者在只將靜態masking改成動態masking，其他引數不變的情況下做了實驗，動態masking確實能提高效能。

原本的bert為了捕捉句子之間的關係，使用了nsp任務進行預訓練，就是輸入一對句子a和b，判斷這兩個句子是否是連續的。在訓練的資料中，50%的b是a的下乙個句子，50%的b是隨機抽取的。

而roberta去除了nsp，而是每次輸入連續的多個句子，直到最大長度512（可以跨文章）。這種訓練方式叫做（full - sentences），而原來的bert每次只輸入兩個句子。實驗表明在mnli這種推斷句子關係的任務上roberta也能有更好效能。

3. 更大的mini-batch

原本的bertbase 的batch size是256，訓練1m個steps。roberta的batch size為8k。為什麼要用更大的batch size呢？（除了因為他們有錢玩得起外）作者借鑑了在機器翻譯中，用更大的batch size配合更大學習率能提公升模型優化速率和模型效能的現象，並且也用實驗證明了確實bert還能用更大的batch size。直接看圖吧，不細說了。

4. 更多的資料，更長時間的訓練

這一套下來，最終在glue, race, squad上都達到了sota的效能。

Roberta的原理介紹

無炫技純粹的Bert和Roberta

Redis原理介紹

GSLB原理介紹

Roberta的原理介紹

無炫技 純粹的Bert和Roberta

Redis原理介紹

GSLB原理介紹

相關推薦

無炫技純粹的Bert和Roberta