GPT Bert Attention等一些總結

2022-09-23 14:00:12 字數 1096 閱讀 2775

《encoder-decoder框架、attention、transformer、elmo、gpt、bert學習總結》

裡面有一些點可以注意:

然後為了防止其結果過大,會除以乙個尺度標度

,其中為乙個query和key向量的維度。

簡單的說是為了讓attention得到的權值更加均勻一點。

在數量級較大時,softmax將幾乎全部的概率分布都分配給了最大值對應的標籤。

如果本身就想獲得差距較大的attention值,可以不用scaled。例如在這裡:

**提出了兩點改進:(1)提出帶有方向與相對位置資訊的atteniton機制;(2)丟棄了原有transformer self-attention的scale factor,scale factor的引入是為了得到分布相對均勻的attention權重,但是在ner中,並不需要關注所有詞。

elmo採用了典型的兩階段過程:

優點:缺點:

gpt是「generative pre-training」的簡稱,從名字看其含義是指的生成式的預訓練。gpt也採用兩階段過程:

與elmo區別:

優點:缺點:

bert採用和gpt完全相同的兩階段模型:

與gpt區別:

最主要不同在於在預訓練階段採用了類似elmo的雙向語言模型

另外一點是語言模型的資料規模要比gpt大

優點:在各種型別的nlp任務中達到目前最好的效果,某些任務效能有極大的提公升

bert最關鍵兩點:

一點是特徵抽取器採用transformer;

第二點是預訓練的時候採用雙向語言模型。

創新點:

一些概念等

struts的基本概念 1.struts是乙個框架 frameset 2.struts是乙個web框架 3.框架提高了程式的規範的同時,也約束了程式的自由 4.是開源的框架 struts為什麼存在 由於對mvc的理解不同,可能造成 規範不統一,不利於程式的維護和擴充套件,所以有必要用乙個統一的規範來...

linux shell script 的一些總結

獲得本機inet ip sbin ifconfig eth0 grep inet addr sed s addr g sed s bcast.g 刪除空白行 cat etc man.config grep man sed s g sed d egrep與grep egrep grep e egrep...

關於Spring Data Rest的一些總結

最近一直在開發一些基於 spring data rest 的專案。在此過程中,隨著開發工作的不斷深入,對 spring data rest 的了解也越來越深。享受著 spring data rest 帶來的便捷,也忍受著它帶來的不便。spring data rest 的目標是提供堅實的基礎,從而使用...