理解詞嵌入WordEmbedding

2021-10-07 08:37:44 字數 942 閱讀 5875

詞嵌入,英文為 word embedding,這是語言表示的一種方式。它可以讓演算法理解一些類似的詞。

我們可以用one-hot向量來表示詞,如下圖所示。

這種表示方式,我們需要首先獲取乙個字典,比如字典中有100000個詞。

對每乙個詞,都得到乙個向量,其中該詞對應位置上置一,其他位置置零。

比如man這個詞位於字典的第5391個位置,則我們為這個單詞建立乙個100000維度的向量,其中第5391個位置處值為1,其他位置值為0.

這種方法的缺點,是它把每個詞孤立了起來。這樣會使演算法對相關詞的泛化能力不強。

比如,如下兩句話中,都需要在末尾填入乙個單詞。

i want a glass of orange ____

我們用下面這個例子來方便大家理解word embedding。

這是乙個理想化的word embedding表示,**中每一列的資料表示某乙個單詞的word embedding向量。可以看到,queen和king的向量值很接近,說明這兩個詞有相關性。

在這種表示中,我們要知道:

第一列表示特徵,比如gender,royal,age等,這裡有300個特徵;

後面每一列表示乙個單詞的word embedding;

其中值為1表示單詞與特徵非常接近,比如king與royal的相似性值為0.93;值為0表示相關性很低。

用word embedding來表示詞,會讓演算法的泛化能力更好。雖然真正的word embedding表示,無法做到本例中能知道各個向量值具體表示什麼特徵,我們通過這個例子,也只是說明word embedding這種高維的表示,比on-hot要好。

詞嵌入方法

對於自然語言處理任務,我們不能直接使用純文字字串作為輸出,而是需要將文字字元轉化為連續值的向量。詞嵌入的主要思想是將文字轉換為較低維度空間的向量表示。對於這種轉化後的向量有兩個重要的要求 總的來說,詞嵌入就是一種 從文字語料庫構建低維向量表示的方法,可以保留單詞的上下文相似性。現在我們知道它是什麼,...

5 2 5學習詞嵌入

課前提問 問題1 什麼是詞嵌入?問題2 如何嵌入?課後回答 1 什麼是學習詞嵌入?答案 學習詞嵌入是功能,即向系統輸入依次幾個單詞,系統自動 出下乙個單詞是什麼,eg a glass of orange 系統會自動 出juice這個單詞,我們把系統的這種功能叫做 學習詞嵌入 2 如何嵌入?答案 首先...

詞嵌入之FastText

什麼是fasttext fasttext是facebook於2016年開源的乙個詞向量計算和文字分類工具,它提出了子詞嵌入的方法,試圖在詞嵌入向量中引入構詞資訊。一般情況下,使用fasttext進行文字分類的同時也會產生詞的embedding,即embedding是fasttext分類的產物。fas...