dnn解讀 MT DNN原理解讀

最近大佬們接連放出大招。。mt-dnn還沒看，gpt2就出來了，爭取這兩天讀完把細節寫一下，一直堅持追蹤nlp預訓練模型的進展，自己工作中也用上了bert，希望nlp的發展越來越好。

不了解bert的請戳這裡。

正文分割線

1.mt-dnn模型

1.1 模型結構

了解bert的朋友們一看這個圖估計就懂了，bert的fine-tune是針對不同的任務在編碼層後面加上task-layer，而mt-dnn就是把所有任務fine-tune的步驟都拼到了一起。這裡根據輸出的不同將任務分成了四種。

其實這點相信大部分用了bert但又缺少標註資料的朋友都可以想到，比如我這幾天就在做這樣的工作，因為標註資料只有幾百條，所以除了各種資料增強就只能上多工學習了。

多工學習的優點主要有兩個：在標註資料較少的情況下，可以利用到其他相似任務的標註資料

減少針對特定任務的過擬合，起到正則化的作用

但問題來了：拿bert的哪個編碼表示？(cls、sep還是都拼起來？)

帶著上面兩個問題，仔細讀了下**。

1.2 task specific layerssingle sentence classification：採用[cls]作為句子編碼表示，softmax損失函式

pairwise text similarity：採用[cls]作為句子編碼表示，sigmoid損失函式

pairwise ranking：採用[cls]作為句子編碼表示，sigmoid損失函式

1.3 模型訓練

聯合訓練：作者將所有task的batch訓練資料混合成資料集d，每次從d中拿出乙個任務的batch進行訓練。

相比於交替訓練(先訓練任務a再訓練任務b)，這樣做的好處是避免偏向某個任務。

2.結論

2.1 多工學習可以提公升模型表現

bert證明了在大規模無監督語料上進行預訓練可以提公升nlp任務的表現，mt-dnn則證明了在一定規模的有監督語料上，用多工學習+預訓練模型會帶來更好的表現。可以說比bert更進一步地解決了業界標註資料稀缺的情況。

2.2 多工學習具有更好的泛化效能

作者又在其他資料集上進行了實驗，以驗證mt-dnn模型在新任務中的表現，還是優於精挑bert。因此mt-dnn具備更好的泛化效能。

其實總的來說，mt-dnn並沒有多少創新，不過也在bert的基礎上更進一步，提公升了nlp的水準。希望nlp越來越好~去看gpt2了