cs224u word2vec詞向量模型

word2vec詞向量模型從乙個單詞w**與w共同出現的單詞。這種直覺可以通過多種方式實現。在這裡，我們回顧一下skip-gram模型，這是由mikolov等人提出的，**鏈結為模型是一種有效的學習高質量分布式向量表示的方法，它可以捕捉大量精確的句法和語義詞彙關係。**提出了一些改進措施，使skip-gram模型更具表現力，並能更快地學習高質量向量。通過對高頻詞進行取樣，可以獲得顯著的加速，並且還可以學習由任務衡量的更高質量的表示。**引入了負取樣（negative sampling），這是雜訊對比估計（nce）的一種簡化變體，它比softmax能更準確地學習高頻詞的向量。詞彙表徵的乙個固有侷限性是對詞序的無視和無法表達習語。例如，不能很容易地將「加拿大」和「航空」的含義結合起來獲得「加拿大航空」。在這個例子的啟發下，**提出了一種簡單有效的短語查詢方法，並證明了skip-gram模型可以準確地學習短語的向量表示。

最自然的出發點是通過將每個詞對映到給定視窗**現的詞的子集（可能是全部），將乙個語料庫轉換為乙個有監督的資料集。

例如乙個語料庫：

it was the best of t

cs224u word2vec詞向量模型

CS224N 子詞模型（subwords）

cs224d 詞向量表示

CS224n 詞向量模型和GloVe

cs224u word2vec詞向量模型

CS224N 子詞模型（subwords）

cs224d 詞向量表示

CS224n 詞向量模型和GloVe

相關推薦