BERT理論學習 10

elmo由雙向lstm作為特徵獲取器，最後得到了三層embedding，最底層是單詞的word embedding，向上一層為單詞位置的embedding，句法資訊多一些；再向上也是單詞位置的embedding，語法資訊多一些。對於新的乙個句子，將會得到三個embedding，然後有乙個權重a，將三個embedding進行整合。

然而，1.lsmt提取特徵的能力弱於transformer（在2023年google的機器翻譯任務"attention is all you need"，本質上是attention疊加結構,[【transformer>lstm>cnn】那麼trainsormer和cnn有社麼區別呢）；2憑藉方式雙向融合特徵能力偏弱。

gpt（generative pre-training)的預訓練依然以語言模型作為目標任務，與elmo不同的是，gpt只用了上文來進行訓練。在下游任務上，需要把任務的網路結構該程和gpt一樣的，然後在做下游任務時將第一步預訓練好的語言學知識引入手頭的任務（不同的結構為什麼不可以）。

bert採用了和gpt完全相同的兩階段模型，語言模型訓練，然後fine-tuning解決下游任務。和gpt最主要的區別是使用了類似elmo的雙向訓練方式（transformer）,資料集也比gpt大。對於四大類任務，1.句子任務；2.分類；3.序列標註；4.句子生成都可以很方便地改造為bert接受的方式。bert有兩個要點：1.採用了transformer做特徵提取器；2.採用了雙向語言模型。跟elmo的雙向方式不同，其是在完形填空（cbow）的方式進行訓練，通過窺視上下文。

[masked]標記中的80%被真正替換為[masked]，10%被隨機替換為另外乙個單詞，10%原地不動。訓練語言模型的過程中順帶還做next sentence prediction的任務，大致是選擇真正相連的句子，另一種是隨機選擇乙個句子後面的句子拼接起來。[cls] 句子1 [sep] 句子2[sep] 其中[cls]代表類別。

bert的每個單詞有3個embedding，分別為位置，單詞，句子embedding。

bert採用了transformer的架構，內部也是encoders-decoders的結構。

bert比transformer更多頭，bert base有12個，bert large有16個。

12層encoder類似於elmo的三層特徵提取網路結構嘛？之前聽說過使用bert的後四層，是說後面四層的decoder結構以及引數？

BERT理論學習 10

PMI理論學習

LSTM理論學習

AI理論學習

BERT理論學習 10

PMI理論學習

LSTM理論學習

AI理論學習

相關推薦