理解詞嵌入WordEmbedding

詞嵌入，英文為 word embedding，這是語言表示的一種方式。它可以讓演算法理解一些類似的詞。

我們可以用one-hot向量來表示詞，如下圖所示。

這種表示方式，我們需要首先獲取乙個字典，比如字典中有100000個詞。

對每乙個詞，都得到乙個向量，其中該詞對應位置上置一，其他位置置零。

比如man這個詞位於字典的第5391個位置，則我們為這個單詞建立乙個100000維度的向量，其中第5391個位置處值為1，其他位置值為0.

這種方法的缺點，是它把每個詞孤立了起來。這樣會使演算法對相關詞的泛化能力不強。

比如，如下兩句話中，都需要在末尾填入乙個單詞。

i want a glass of orange ____

我們用下面這個例子來方便大家理解word embedding。

這是乙個理想化的word embedding表示，**中每一列的資料表示某乙個單詞的word embedding向量。可以看到，queen和king的向量值很接近，說明這兩個詞有相關性。

在這種表示中，我們要知道：

第一列表示特徵，比如gender，royal，age等，這裡有300個特徵；

後面每一列表示乙個單詞的word embedding；

其中值為1表示單詞與特徵非常接近，比如king與royal的相似性值為0.93；值為0表示相關性很低。

用word embedding來表示詞，會讓演算法的泛化能力更好。雖然真正的word embedding表示，無法做到本例中能知道各個向量值具體表示什麼特徵，我們通過這個例子，也只是說明word embedding這種高維的表示，比on-hot要好。

詞嵌入方法

對於自然語言處理任務，我們不能直接使用純文字字串作為輸出，而是需要將文字字元轉化為連續值的向量。詞嵌入的主要思想是將文字轉換為較低維度空間的向量表示。對於這種轉化後的向量有兩個重要的要求總的來說，詞嵌入就是一種從文字語料庫構建低維向量表示的方法，可以保留單詞的上下文相似性。現在我們知道它是什麼，...

5 2 5學習詞嵌入

課前提問問題1 什麼是詞嵌入？問題2 如何嵌入？課後回答 1 什麼是學習詞嵌入？答案學習詞嵌入是功能，即向系統輸入依次幾個單詞，系統自動出下乙個單詞是什麼，eg a glass of orange 系統會自動出juice這個單詞，我們把系統的這種功能叫做學習詞嵌入 2 如何嵌入？答案首先...

詞嵌入之FastText

什麼是fasttext fasttext是facebook於2016年開源的乙個詞向量計算和文字分類工具，它提出了子詞嵌入的方法，試圖在詞嵌入向量中引入構詞資訊。一般情況下，使用fasttext進行文字分類的同時也會產生詞的embedding，即embedding是fasttext分類的產物。fas...

理解詞嵌入WordEmbedding

詞嵌入方法

5 2 5學習詞嵌入

詞嵌入之FastText

相關推薦