Bert學習小記

2021-10-09 22:34:38 字數 571 閱讀 8368

input embedding = token embedding + segmentation embedding + position embedding

三個embedding相加

1、masked lm策略(mlm)

如果只選取什麼詞要mask的話,會有乙個缺點:造成pre-training層和fine-tunning層的不匹配(要保持訓練任務一致),因為[mask]並不會出現呢在fine-tunning層。所以為了減緩這種影響,對於選取的詞會有一定概率不mask

這裡使用transformer模型(下面也是)

2、**下乙個句子(nsp:next sentence prediction)

進行了消融實驗後證明,模型的大部分改善來自於兩個預訓練任務以及他們所帶來的雙向性

這裡的fine-tunning堆模型只用簡單的修改

谷歌BERT 學習

bert 怎麼讀隨便 其實是bidirectional encoder representations from transformers的縮寫,屬於深度雙向預訓練模型,在模型的所有層的表示都依賴於左右兩個方向的上下文。這樣設計的結果就是在大規模預料上預訓練的bert表示再加一層額外的輸出層便可以應...

bert學習筆記

如上圖,正如上一節所說,bert的核心結構其實跟transformer的encoder部分差不多。關於transformer的相關介紹,可檢視 transformer學習筆記 那麼這裡就不再贅述了。雖然bert跟transformer的encoder部分基本差不多,但是還是有一些地方需要注意一下。在...

BERT學習理解

在看了好多大牛們的部落格之後,關於bert有了乙個大概的理解,將一些知識點整理到這裡。bert的全稱是bidirectional encoder representation from transformers,利用了transformer的encoder部分,重點是預處理 訓練pre traini...