如何使用bert做word embedding

調研目的：如何使用第三方庫快速對資料進行預訓練，得到embedding

作者（香港大學）馬東什麼：

不同預訓練模型的embedding機制不一樣，word2vec glove fasttext 都是直接查詞得到embedding，bert 直接取最後一層的輸出，elmo更靈活了可以取embedding和lstm層的輸出的平均 concat或者頂層lstm的輸出。提取出embedding之後將這些embedding與其它特徵concat即可

作者sirius：

主流的bert包，經典的是google-research/bert；另外，這個也很好用huggingface/transformers，是從pytorch-pretrained-bert進化過來的。bert word embeddings tutorial（英文）

作者天生smile

超出我的理解能力，解釋了原始碼。專案太複雜：實體識別ner、金融圖譜塔建、seq2seq。但bert的沒有**。

作者風吹草地

pytorch-pretrained-bert簡單使用，沒有訓練，直接輸入一句話，得到這句話的embedding。

作者iterate7

bert進行embedding。bertmodel.from_pretrained也是拿訓練好的

作者captainqxy

使用transformers從頭訓練bert。pytorch版

token embedding、segment embedding、position embedding的意義我已經清楚了，但是這三個向量為什麼可以相加呢？相加後向量的大小和方向就變了，語義不就變了嗎？

我的目的是為知識追蹤的question進行預訓練，得到question的embedding，充分表達question的語義。我的訓練集像nlp一樣，一句句話。因為我的詞不是中文，沒有已經訓練好的引數。只能從頭開始訓練。而且訓練中文的bert模型都是幾十層的，我這個小型資料集是不適合的。結果：手寫實現一層transformer的encoder。

理解了transformer的話，其實就那幾個部分。不必使用人家的第三方函式庫。

不過走nlp方向，肯定也要熟悉怎麼使用第三方庫。

tensorflow的話可以使用bert4keras蘇劍林大神的，他還有自己的qq群

pytorch的話，就上面參考資料。

知識追蹤的語料，雖然是序列是question id，就好比人說的每句話，我們從序列中，希望的到question與question之間的某些關係，相似的question的embedding距離較近。結果表明，訓練的loss一直不降，維持在5~7左右。而且訓練好的embedding還沒skip-gram的好。經分析和推斷

（1）question序列中，較遠的題目沒有很強的聯絡。

（2）question序列中，沒有位置關係，因為他是從無向圖graph中取樣的。無向圖取樣比較隨意。q1-c1-q2-c1-q3-c1-q2（元路徑q-c-q的侷限性）

（3）question之間的聯絡並沒有中文中「我」跟「愛」的聯絡強。skip-gram就只用判斷2個question是否相似。skip-gram有負樣本，不用計算softmax。

（4）bert是**mask掉的詞，gpt是**下乙個詞，哪個形式好呢？

如何使用bert做word embedding

如何使用bert

bert做文字摘要 BERT文字摘要

bert可以做哪些nlp任務

如何使用bert做word embedding

如何使用bert

bert做文字摘要 BERT文字摘要

bert可以做哪些nlp任務

相關推薦