谷歌BERT 學習

bert(怎麼讀隨便），其實是bidirectional encoder representations from transformers的縮寫，屬於深度雙向預訓練模型，在模型的所有層的表示都依賴於左右兩個方向的上下文。這樣設計的結果就是在大規模預料上預訓練的bert表示再加一層額外的輸出層便可以應用到很多任務中，並可以得到很好的效果，據**說該模型在11種自然語言處理任務中都取得了目前最好的效果。（不得不佩服這種概念簡單但是實際效果屌炸的設計）

預訓練模型近幾年在自然語言處理領域逐漸得到廣泛關注，在很多任務中被驗證非常有效。目前在應用預訓練語言表示到下游任務（downstream tasks）中有兩種策略：1. 基於特徵，2. 基於fine-tuning；

基於特徵，例如elmo，將預訓練好的representations作為特徵輸入特定任務模型，訓練模型完成任務目標；

基於fine-tuning, generative pre-trained transformer (openai gpt) , 引入最少的特定任務引數，然後再下游任務中fine-tuning引入的引數；

bert的提出感覺是在前人基礎上的集大成，之前gpt已經是基於transform的語言模型了，但只做了單向，bert搞了雙向，增加了一些特殊的訓練方法，取得了很好的效果；

模型是乙個多層雙向transformer encoder, 基於《attention is all you need》中的模型(在中發布，大神詳細介紹的部落格： )。

模型結果對比如下圖：

模型的輸入可以是乙個句子，也可以是a pair of 句子，如圖：

圖中的輸入為一對句子，兩個句子用特殊分隔符[sep]隔開，每個輸入都是三個embedding的疊加，同時對於分類任務來說，句子開頭還有乙個表示類別的特殊embedding：[cls]。

並不是使用傳統的從左到右或者是從右到左語言模型進行預訓練，使用兩種新穎的無監督**任務來進行bert訓練。

masked lm

為了訓練深度雙向表示，我們直接將一些輸入token按一定的比例進行遮擋，然後**這些被遮擋的tokens，這個過程就叫做「masked lm(mlm)」。

而bert的訓練過程如下，

訓練資料生成器隨機選擇15%的tokens，例如選擇句子「my dog is hairy」中的"hairy", 並不總是將"hairy"替換為[mask], 進行如下處理：

上述過程有效解決了在fine-tuning過程中[mask] token永遠不會被看到，從而使得預訓練與fine-tuning產生mismatch的問題；但也存在著收斂時間變長的固有問題（因為每個batch只**15%的token）

**中的原理解釋:

transformer encoder 並不知道之後會**哪個word，也不知道輸入的哪個word被隨機替換了，因此會被強迫學習到每乙個輸入token的上下文背景語義分布。同時，由於隨機替換只發生1.5%(10% of 15%)，看起來也不會損害模型的語言理解能力。

next sentence prediction

許多重要的下游任務，例如問答、自然語言推斷等都是基於對兩個句子關係的理解，同時使用語言模型又無法很好的捕捉。為了訓練乙個可以理解句子關係的模型，我們進行乙個二值化的下一句子**預訓練過程，訓練資料可以從任何乙個大的文字集合中得到。

當我們選擇兩個句子a和b的時候，50%的時間b是真正的下一句子，50%的時間b是從集合中任意生成的乙個句子，例如：

在 next sentence prediction目標上，**給出的結果最終的預訓練模型可以達到97%~98%的精確率（有點殘暴啊）。

真正上手使用，需要經過兩個階段，分別是在大語料上的預訓練階段（與具體任務無關，語料越大越好）與具體應用的fine-tuning階段；

預訓練階段

準備好大的文字集合，將文字集合分為a,b兩部分，為next sentence prediction目標準備資料；

由於同時訓練兩個任務目標，因此有兩部分損失函式：

total_loss = masked_lm_loss + next_sentence_loss

關於損失函式的定義，bert模型只使用了transform模型的encoder部分，它的encoder部分輸出為每乙個item的hidden_vector, 而對於masked_lm_loss，只使用對應mask掉的item hidden_vector過softmax 進行**，同時限制了再乙個訓練樣例中最多mask掉item的數量。

這裡需要注意乙個特殊的"[cls]"，我的理解是在訓練階段，每個訓練樣例輸入開頭的都是這個特殊item，對應在輸入的hidden_vector會學到乙個包括整個序列的一些資訊，只是最後這個特殊的item對應的hidden_vector輸出經過fine-tuning可以用來做分類任務，且效果很好，**中把這個特殊向量叫做乙個sequence的pooled representation。

補充一點，sequence難免長度不一樣，做訓練需要特殊處理，採用的方式是用0值padding成一樣長的佇列，對不padding部分使用乙個mask的資料進行記錄，在訓練時候attention部分同樣有乙個mask，進行對應處理。

fine-tuning階段

fine-tuning階段就看具體任務是做什麼了，我的任務是文字分類，那就對"[cls]"對應的輸出向量pooled representation 再加乙個分類模型，二分類還是多分類看需求，在具體任務的訓練資料上繼續進行訓練，基本模式就是在最大化對數似然的過程中，fine-tine bert本身的引數與我們根據具體任務新加的引數。

谷歌BERT 學習

Bert學習小記

bert學習筆記

BERT學習理解

谷歌BERT 學習

Bert學習小記

bert學習筆記

BERT學習理解

相關推薦