NLP 秒懂詞向量Word2vec的本質

提綱挈領地講解 word2vec 的理論精髓

學會用gensim訓練詞向量，並尋找相似詞

你不會在本文看到

神經網路訓練過程的推導

hierarchical softmax/negative sampling 等 trick 的理論和實現細節

在聊 word2vec 之前，先聊聊 nlp (自然語言處理)。nlp 裡面，最細粒度的是詞語，詞語組成句子，句子再組成段落、篇章、文件。所以處理 nlp 的問題，首先就要拿詞語開刀。

舉個簡單例子，判斷乙個詞的詞性，是動詞還是名詞。用機器學習的思路，我們有一系列樣本(x,y)，這裡 x 是詞語，y 是它們的詞性，我們要構建 f(x)->y 的對映，但這裡的數學模型 f（比如神經網路、svm）只接受數值型輸入，而 nlp 裡的詞語，是人類的抽象總結，是符號形式的（比如中文、英文、拉丁文等等），所以需要把他們轉換成數值形式，或者說——嵌入到乙個數學空間裡，這種嵌入方式，就叫詞嵌入（word embedding)，而 word2vec，就是詞嵌入（ word embedding) 的一種

我在前作『都是套路: 從上帝視角看透時間序列和資料探勘』提到，大部分的有監督機器學習模型，都可以歸結為：

f(x)->y

在 nlp 中，把 x 看做乙個句子裡的乙個詞語，y 是這個詞語的上下文詞語，那麼這裡的 f，便是 nlp 中經常出現的『語言模型』（language model），這個模型的目的，就是判斷 (x,y) 這個樣本，是否符合自然語言的法則，更通俗點說就是：詞語x和詞語y放在一起，是不是人話。

word2vec 正是**於這個思想，但它的最終目的，不是要把 f 訓練得多麼完美，而是只關心模型訓練完後的副產物——模型引數（這裡特指神經網路的權重），並將這些引數，作為輸入 x 的某種向量化的表示，這個向量便叫做——詞向量（這裡看不懂沒關係，下一節我們詳細剖析）。

我們來看個例子，如何用 word2vec 尋找相似詞：

上面我們提到了語言模型

NLP 秒懂詞向量Word2vec的本質

維基百科資料庫處理,用於訓練word2vec

word2vec 過程理解詞向量的獲取

利用Word2Vec訓練詞向量過程

NLP 秒懂詞向量Word2vec的本質

維基百科資料庫處理,用於訓練word2vec

word2vec 過程理解 詞向量的獲取

利用Word2Vec訓練詞向量過程

相關推薦

word2vec 過程理解詞向量的獲取