學習詞向量from Sebastian Ruder

參考

無監督學習得到的詞向量在nlp任務中取得巨大成功。而且近兩年acl和emnlp會議上有關詞向量的文章特別多，甚至有人調侃embedding methods in natural language processing更適合emnlp。

簡單來說，詞向量是單詞在低維空間的稠密表示。主要講神經詞向量，即詞向量是由神經網路學到的。

bengio在2023年通過神經網路訓練語言模型，得到了詞向量這個副產品；

collobert and weston在2023年宣告了詞向量對下游任務是個有用的工具；

mikolov在2023年提出了word2vec;

pennington在2023年提出了glove。

詞向量是無監督學習的乙個成功應用，無需昂貴的標記資料，從大量未標記的語料中進行學習得到。預訓練好的詞向量可以用於擁有小量標記資料的下游任務。

用非常深的架構產生詞向量是計算量昂貴的。mikolov提出的word2vec可以引起巨大影響，是因為大大減小了詞向量的計算代價。

詞向量模型和語言模型是緊密聯絡的。詞向量模型的評估使用perplexity，是從語言模型借鑑來的。

語言模型：給定前面的詞，**下乙個詞。

通過鏈式法則和馬爾可夫假設，我們可以近似得到乙個句子的概率：

在語言模型中，我們是通過頻率來獲得概率的：

而在神經網路中，我們使用softmax層來獲得：

經典神經語言模型from bengio 2003

使用前饋神經網路：

優化目標是：

其中：

模型的三個主要部分：

embedding layer: 將單詞對映到低維空間的稠密向量表示

intermediate layer: 通過一層或多層產生輸入的中間表示

softmax layer: 產生在詞彙表v上的概率分布

其中第三點是網路的主要瓶頸，和詞彙表的大小密切相關。因此緩解這一部分的計算代價是關鍵挑戰之一。

c&w模型

bengio提出這個方法後，由於在大量的詞彙表上進行訓練計算代價太大，詞向量的研究停滯不前。

collobert and weston在2023年提出在大量資料集上訓練的詞向量會攜帶句法和語義資訊，可以提高下游任務的效能。

為了避免softmax層昂貴的計算代價，他們使用了不同的目標函式，不同於bengio使用的交叉熵損失函式，他們使用了pairwise ranking criterion，輸出的是對視窗的打分。

對於每乙個視窗，將中間單詞替換為詞彙表裡的其他單詞，即構造了假樣本。通過最小化上面的目標函式，使得正確視窗的打分至少比假樣本的打分高1分。

word2vec

word2vec並不屬於深度學習，因為它的結構既不深也沒有採用非線性變換。

word2vec相比bengio語言模型和c&w模型的兩大優點：

word2vec移除了hidden layer

使得語言模型考慮了其他的上下文

當然，word2vec的成功不僅是上面的改變，還尤其是訓練技巧。

cbow：continuous bag-of-words

word2vec的目的是生成準確的詞向量，因此mikolov採用了用前後各n個單詞來**中間的單詞。沒有考慮單詞的順序。

不同於cbow，sg使用中間詞來**周圍的詞。

dsm通過操作共現矩陣統計單詞的共現資訊，神經詞向量模型是嘗試著**周圍單詞。

levy et al (2015)將glove被視為**模型，同時它也利用了共現矩陣資訊，有點像傳統的方法，如pca, lsa. levy et al還演示了 word2vec 隱式地分解了 word-contxt pmi matrix.

表面上看上去，dsm和word embedding models使用了不同的演算法，本質上，兩者都是基於資料統計量的，即單詞間的共現次數。

學習筆記詞向量與詞嵌入

詞向量叫做詞向量化文字向量化 vectorize 是指將文字轉換為數值張量的過程多種實現方法將文字分割為單詞，並將每個單詞轉換為乙個向量。將文字分割為字元，並將每個字元轉換為乙個向量。提取單詞或字元的 n gram n元並將每個 n gram 轉換為乙個向量。n gram 是多個連續單...

詞向量如何評價詞向量的好壞

詞向量詞嵌入或者稱為詞的分布式表示，區別於以往的獨熱表示，已經成為自然語言任務中的乙個重要工具，對於詞向量並沒有直接的方法可以評價其質量，下面介紹幾種間接的方法。對於詞向量的評價更多還是應該考慮對實際任務的收益，脫離的實際任務很難確定a模型就一定比b好，畢竟詞向量方法更多是一種工具。學生上課 0...

學習筆記（一）詞向量

詞向量詞向量可以表示兩個詞的語義相似度可以訓練詞向量的模型主要有 cbow skip gram nnlm glove elmo mf 矩陣分解 gause embedding bert skip gram 根據中心詞上下文對於 w1,w2,w3,w4,w5 p p w2 w1 p w1 w2...

學習詞向量from Sebastian Ruder

學習筆記 詞向量與詞嵌入

詞向量 如何評價詞向量的好壞

學習筆記（一） 詞向量

相關推薦

學習筆記詞向量與詞嵌入

詞向量如何評價詞向量的好壞

學習筆記（一）詞向量