學習詞向量from Sebastian Ruder

2021-08-28 23:17:28 字數 2399 閱讀 6401

參考

無監督學習得到的詞向量在nlp任務中取得巨大成功。而且近兩年acl和emnlp會議上有關詞向量的文章特別多,甚至有人調侃embedding methods in natural language processing更適合emnlp。

簡單來說,詞向量是單詞在低維空間的稠密表示。主要講神經詞向量,即詞向量是由神經網路學到的。

bengio在2023年通過神經網路訓練語言模型,得到了詞向量這個副產品;

collobert and weston在2023年宣告了詞向量對下游任務是個有用的工具;

mikolov在2023年提出了word2vec;

pennington在2023年提出了glove。

詞向量是無監督學習的乙個成功應用,無需昂貴的標記資料,從大量未標記的語料中進行學習得到。預訓練好的詞向量可以用於擁有小量標記資料的下游任務。

用非常深的架構產生詞向量是計算量昂貴的。mikolov提出的word2vec可以引起巨大影響,是因為大大減小了詞向量的計算代價。

詞向量模型和語言模型是緊密聯絡的。詞向量模型的評估使用perplexity,是從語言模型借鑑來的。

語言模型:給定前面的詞,**下乙個詞。

通過鏈式法則和馬爾可夫假設,我們可以近似得到乙個句子的概率:

在語言模型中,我們是通過頻率來獲得概率的:

而在神經網路中,我們使用softmax層來獲得:

經典神經語言模型from bengio 2003

使用前饋神經網路:

優化目標是:

其中:

模型的三個主要部分:

embedding layer: 將單詞對映到低維空間的稠密向量表示

intermediate layer: 通過一層或多層產生輸入的中間表示

softmax layer: 產生在詞彙表v上的概率分布

其中第三點是網路的主要瓶頸,和詞彙表的大小密切相關。因此緩解這一部分的計算代價是關鍵挑戰之一。

c&w模型

bengio提出這個方法後,由於在大量的詞彙表上進行訓練計算代價太大,詞向量的研究停滯不前。

collobert and weston在2023年提出在大量資料集上訓練的詞向量會攜帶句法和語義資訊,可以提高下游任務的效能。

為了避免softmax層昂貴的計算代價,他們使用了不同的目標函式,不同於bengio使用的交叉熵損失函式,他們使用了pairwise ranking criterion,輸出的是對視窗的打分。

對於每乙個視窗,將中間單詞替換為詞彙表裡的其他單詞,即構造了假樣本。通過最小化上面的目標函式,使得正確視窗的打分至少比假樣本的打分高1分。

word2vec

word2vec並不屬於深度學習,因為它的結構既不深也沒有採用非線性變換。

word2vec相比bengio語言模型和c&w模型的兩大優點:

word2vec移除了hidden layer

使得語言模型考慮了其他的上下文

當然,word2vec的成功不僅是上面的改變,還尤其是訓練技巧。

cbow:continuous bag-of-words

word2vec的目的是生成準確的詞向量,因此mikolov採用了用前後各n個單詞來**中間的單詞。沒有考慮單詞的順序。

不同於cbow,sg使用中間詞來**周圍的詞。

dsm通過操作共現矩陣統計單詞的共現資訊,神經詞向量模型是嘗試著**周圍單詞。

levy et al (2015)將glove被視為**模型,同時它也利用了共現矩陣資訊,有點像傳統的方法,如pca, lsa. levy et al還演示了 word2vec 隱式地分解了 word-contxt pmi matrix.

表面上看上去,dsm和word embedding models使用了不同的演算法,本質上,兩者都是基於資料統計量的,即單詞間的共現次數。

學習筆記 詞向量與詞嵌入

詞 向量 叫做 詞向量化 文字向量化 vectorize 是指將文字轉換為數值張量的過程 多種實現方法 將文字分割為單詞,並將每個單詞轉換為乙個向量。將文字分割為字元,並將每個字元轉換為乙個向量。提取單詞或字元的 n gram n元 並將每個 n gram 轉換為乙個向量。n gram 是多個連續單...

詞向量 如何評價詞向量的好壞

詞向量 詞嵌入或者稱為詞的分布式表示,區別於以往的獨熱表示,已經成為自然語言任務中的乙個重要工具,對於詞向量並沒有直接的方法可以評價其質量,下面介紹幾種間接的方法。對於詞向量的評價更多還是應該考慮對實際任務的收益,脫離的實際任務很難確定a模型就一定比b好,畢竟詞向量方法更多是一種工具。學生 上課 0...

學習筆記(一) 詞向量

詞向量 詞向量可以表示兩個詞的語義相似度 可以訓練詞向量的模型主要有 cbow skip gram nnlm glove elmo mf 矩陣分解 gause embedding bert skip gram 根據中心詞 上下文 對於 w1,w2,w3,w4,w5 p p w2 w1 p w1 w2...