word embedding計算過程剖析

詞向量，英文也叫word embedding ，按照字面意思，就是詞嵌入。就是把單詞對映為多維向量。

要了詞向量，就要從one-hot編碼說起。one-hot編碼就是給句子中的每個字分別用乙個0-1編碼，以「科、學、空、間、不、錯」為例：

其中，「科學」可以用以下矩陣表示：

從這個例子可以看出，乙個句子中有多少個字，就有多少維度。這樣構造出來的矩陣是很大的，而且是稀疏矩陣，浪費資源。

最左邊表明，這是乙個以2×6的one-hot矩陣為輸入，中間層節點數為3的全連線的神經網路層。從右邊可以看出，這個計算過程就相當於從wi,j矩陣中取出第1,2行，跟字向量的查表操作是一樣的（從表中找出對應的向量）。

因此，embedding層就是以one hot為輸入、中間層節點為字向量維數的全連線層！而這個全連線層的引數，就是乙個「字向量表」！。

one hot型的矩陣相乘，就像是相當於查表，於是它直接用查表作為操作，而不寫成矩陣再運算，這大大降低了運算量。再次強調，降低了運算量不是因為詞向量的出現，而是因為把one hot型的矩陣運算簡化為了查表操作。

計算完成之後，直接用全連線層的引數作為字、詞的表示，從而得到字、詞向量。