ELMO,BERT,GPT的原理和用法

李巨集毅-elmo, bert, gpt講解: 李巨集毅-elmo, bert, gpt講解

在elmo之前word2vec是靜態的embdding，靜態embedding的特點是同乙個詞，在不通語境下是同乙個embedding。然而這不符合語言學的特點，例如：「太陽就是日」和「我日你大爺」。很明顯兩個「日」表達的意思並不相同，但是如果使用word2vec做靜態embedding，那麼神經網路看到的「日」是同樣的語意。於是就延伸出帶有上下文的embedding(contextualized word embedding)。這種embeding可以保證同乙個字在不同的語境下有不同的embeding。而本文介紹的三個網路都是contextualized word embedding

簡單來說就就是乙個自回歸的雙向rnn，其中隱含層的輸入被當做詞的embedding

elmo在使用時一般可以取出多個隱含層的輸出加權做為該詞的embedding

具體權重可以由下游任務去學習得到

bert實際上使用了transformer的encoder作為編碼器，使用大量文字進行預訓練

在訓練時主要解兩個任務：

bert是一種自編碼模型

簡單的分成4中情況：

任務例項

下游任務用法

句子分類

句子情感分析

下游任務直接使用cls標記的embedding

序列標註

詞性標註，ner

下游任務使用每個詞輸出的embedding

兩句話分析關係

句子相似度

下游任務直接使用cls標記的embedding

squad

閱讀理解

見下圖

黃，藍向量分別代指起始和結束位置。

gpt實際上使用了transformer的decoder作為編碼器，使用大量文字進行預訓練

自回歸的language model

不開源

RPC原理和通訊原理
一次完整的 rpc呼叫流程同步呼叫，非同步另說如下 1 服務消費方 client 呼叫以本地呼叫方式呼叫服務 2 client stub 接收到呼叫後負責將方法引數等組裝成能夠進行網路傳輸的訊息體 3 client stub 找到服務位址，並將訊息傳送到服務端 4 server stub 收到...

加法原理和乘法原理
設事件a有m種產生方式，事件b有n種產生方式，則當a和b的產生方式不重疊時，事件a或b之一有m n種產生方式。可推廣多個事件設事件a有m種產生方式，事件b有n種產生方式，則當a和b的產生方式彼此獨立時，事件a與b有m n種產生方式。無論事件a採用何種方式產生，都不影響事件b。可推廣多個事件例1...

va start va end 的使用和原理
1 當無法列出傳遞函式的所有實參的型別和數目時,可用省略號指定參數列 void foo void foo parm list,2 函式引數的傳遞原理函式引數是以資料結構棧的形式訪問,從右至左入棧.eg 先介紹一下可變參數列的呼叫形式以及原理首先是引數的記憶體存放格式引數存放在記憶體的堆疊段中...

ELMO,BERT,GPT的原理和用法

RPC原理和通訊原理

加法原理和乘法原理

va start va end 的使用和原理

相關推薦