問世即屠榜的bert

adherer

bert的兩大任務：mask lm

next sentence prediction

bert是」 bidirectional encoder representations from transformers 」的首字母縮寫，整體是乙個自編碼語言模型（autoencoder lm），並且其設計了兩個任務來預訓練該模型。

masked lm

masked lm的任務描述為：給定一句話，隨機抹去這句話中的乙個或幾個詞，要求根據剩餘詞彙**被抹去的幾個詞分別是什麼，如下圖所示。adherer

bert 模型的這個預訓練過程其實就是在模仿我們學語言的過程，思想**於完形填空的任務。具體來說，文章作者在一句話中隨機選擇 15% 的詞彙用於**。對於在原句中被抹去的詞彙， 80% 情況下採用乙個特殊符號 [mask] 替換， 10% 情況下採用乙個任意詞替換，剩餘 10% 情況下保持原詞彙不變。這麼做的主要原因是：在後續微調任務中語句中並不會出現 [mask] 標記，而且這麼做的另乙個好處是：**乙個詞彙時，模型並不知道輸入對應位置的詞彙是否為正確的詞彙（ 10% 概率），這就迫使模型更多地依賴於上下文資訊去**詞彙，並且賦予了模型一定的糾錯能力。上述提到了這樣做的乙個缺點，其實這樣做還有另外乙個缺點，就是每批次資料中只有 15% 的標記被**，這意味著模型可能需要更多的預訓練步驟來收斂。

這個類似於段落重排序的任務，即：將一篇文章的各段打亂，讓我們通過重新排序把原文還原出來，這其實需要我們對全文大意有充分、準確的理解。

next sentence prediction 任務實際上就是段落重排序的簡化版：只考慮兩句話，判斷是否是一篇文章中的前後句。在實際預訓練過程中，文章作者從文字語料庫中隨機選擇 50% 正確語句對和 50% 錯誤語句對進行訓練，與 masked lm 任務相結合，讓模型能夠更準確地刻畫語句乃至篇章層面的語義資訊。bert 模型通過對 masked lm 任務和 next sentence prediction 任務進行聯合訓練，使模型輸出的每個字 / 詞的向量表示都能盡可能全面、準確地刻畫輸入文字（單句或語句對）的整體資訊，為後續的微調任務提供更好的模型引數初始值。

之前面試被問到的乙個問題：bert的雙向transformer和雙向lstm的雙向有什麼不同？

非常的不同哈哈，那時候bert和transformer的結構都沒有太理解，因此可以參考這裡xsdn

bert只使用了transformer的encoder模組，原**中，作者分別用12層和24層transformer encoder組裝了兩套bert模型，分別是：

需要注意的是，與transformer本身的encoder端相比，bert的transformer encoder端輸入的向量表示，多了segment embeddings。

「問世即暢銷」背後，方太的創新邏輯
文華商韜略世人常用工匠精神形容敬業專注的品質，提起工匠往往想到日本德國的精細產品。而在中國，誕生於浙江寧波的方太集團將工匠上公升為哲匠秉承以愛為源的創新哲思，成就比德國製造更精湛的中國品牌。哲人般思考，匠人般創作，哲匠方太 24 年來的創新，看似綿柔，實則兇猛。1.從 0...

問世即屠榜的bert

「問世即暢銷」背後，方太的創新邏輯

相關推薦