word2vec技術通俗易懂的解釋

word2vec思路很簡單，我覺得網上很多介紹都弄得太複雜、太細節化了，下面說說我的看法。

word2vec說白了就是乙個對映：

w or

d→fv

(1)\tag1 word \stackrel \to vec

word→f

vec(

1)那麼word、vec、f 如何定義呢？

神經網路模型(2) 無法實現標註其訓練資料，如果知道如何標註，這個問題就不用研究了。因此，我們得**乙個間接的方法來訓練這個模型。

我們不妨利用一批實際文字做訓練樣本，這樣做的好處是不需要人為標註。

我們假設乙個 word 的意義取決於句子中該 word 所在句子中前後順序排列的其他單詞。如果兩個 word 在大量的文獻中，他們在句子中所處的前後位置關係很接近，我們認為這兩個 word 的意義是相近的。

從訓練資料，提取 word 很容易，主要問題聚焦在標籤 label 如何生成。

對於乙個 word，我們可以用它所在句子中的其他單詞作為其標籤。作為簡化方案，選擇 word 所在句子前後若干個單詞，比如前後各取 3 個單詞，組成乙個詞袋，來做其標籤。這樣的話，word 的標籤 label 也是乙個 m 維向量。

當然了，同乙個 word 在不同的句子中，就會有不同的標籤。這個沒啥關係，通過大量的訓練，我們總會得到 word 到 label 的分量的乙個概率分布。意義相近的 word，其語境的概率分布也會相近。

把數學模型(1) 擴充套件一下：

w or

d→fv

ec→g

labe

l(2)

\tag2 word \stackrel \to vec \stackrel \to label

word→f

vec→

glab

el(2

) 這樣一來，經過大量語料訓練之後，模型(2）就完成了。當然，也就順便得到了模型(1)。目前我們一般不會直接用自己的語料訓練詞向量，而是使用別人在超大量語料庫上訓好的詞向量，直接用這些現成的詞向量進行下游任務。除了word2vec之外，比較常用的還有glove。至於elmo和bert，它的原理就跟w2v完全不同了，這個需要單獨學習。

word2vec技術通俗易懂的解釋

通俗理解word2vec

與word2vec 原來word2vec那麼簡單

word2vec工具的技術演進

word2vec技術通俗易懂的解釋

通俗理解word2vec

與word2vec 原來word2vec那麼簡單

word2vec工具的技術演進

相關推薦