筆記nlp預訓練模型

詞向量與elmo模型

bilstm介紹與**實現

目前將預訓練語言表徵應用於下游任務存在兩種策略：feature-based的策略和fine-tuning策略。

原始的 transformer模型由encoder和decoder組成，每個都是我們稱之為 transformer 架構的堆疊。這種架構是合理的，因為該模型解決了機器翻譯問題——過去encoder-decoder結構解決的問題。

堆疊的高度是不同的gpt2模型之間大小有別的主要影響因素之一

**openai的秘密**gpt-2：視覺化transformer語言模型(鏈結)

openai gpt使用的是從左到右的架構，其中每個token只能注意transformer自注意力層中的先前token。這些侷限對於句子層面的任務而言不是最佳選擇，對於token級任務（如 squad 問答）則可能是毀滅性的，因為在這種任務中，結合兩個方向的語境至關重要。

bert（bidirectional encoder representations from transformers）改進了基於微調的策略。提出一種新的預訓練目標——遮蔽語言模型（masked language model，mlm），來克服上文提到的單向侷限。

xlnet