BERT簡要介紹

bert(bidirectional encoder representation from transformers) 網路架構由 jacob devlin 等人提出用於預訓練，學習在給定上下文下給出詞的 embedding 表示。bert 採用了 transformer 架構的編碼器部分用於學習詞在給定上下文下詞的 embedding 表示。考慮到語言模型任務為從左往右或從右往左**下乙個詞的自回歸任務，因此若採用該模式每個詞無法依賴於當前上下文下後續詞進行詞向量表示。為了解決該問題，bert 提出了兩類預訓練任務：

下面我們分別來看這兩類任務。

若採用 self-attention 並直接用於語言模型任務，則每次**下乙個詞時由於 self-attention

機制會將下乙個詞的資訊引入到當前詞的表徵中，當使用該詞的表徵用於**下乙個詞

時，相當於將標註引入到了特徵中，因此出現學習失效問題。為了解決該問題，bert 提

出了如下解決方案：

從待**序列中隨機選擇 15% 的位置用於**任務

引入 1.5% 的隨機詞，相當於對資料增加部分噪音，提公升模型的魯棒性。1.5% 的情況下保留原詞是因為 fine-tuning 階段並沒有 [mask] 詞。

下一句**任務

考慮到重要的下游任務譬如問答 (question answering) 任務，自然語言推理 (natural language inference) 任務依賴於對兩個句子的關係的理解，該資訊在語言模型中沒有直接體

現。因此 bert 中同時設計了下一句**任務，該任務的構建如下：

實際構建預訓練任務時是是首選設計好" 下一句**任務"，生成該任務的標註資訊，在此基礎上構建" 掩碼語言模型任務"，生成掩碼語言模型的標註資訊。考慮到預訓練涉及兩個句子，bert 採用如下的輸入資訊表徵方案：

預訓練階段損失函式通過線性加權方法，同時進行上述兩類任務訓練。預訓練階段結束後將學習到每個詞在特定上下文中 bert 的表徵資訊，該表徵資訊即可用於下游的任務，如下是 bert 表徵用於不同型別的下游任務的 fine-tuning 方案:

BERT簡要介紹

bert簡介 Bert基礎介紹

Bert演算法語言模型 BERT詳細介紹

關於bidaf和bert的簡要回顧

BERT簡要介紹

bert簡介 Bert基礎介紹

Bert演算法 語言模型 BERT詳細介紹

關於bidaf和bert的簡要回顧

相關推薦

Bert演算法語言模型 BERT詳細介紹