詞嵌入之FastText

2022-06-05 17:18:11 字數 512 閱讀 5931

什麼是fasttext

fasttext是facebook於2023年開源的乙個詞向量計算和文字分類工具,它提出了子詞嵌入的方法,試圖在詞嵌入向量中引入構詞資訊。一般情況下,使用fasttext進行文字分類的同時也會產生詞的embedding,即embedding是fasttext分類的產物。

fasttext流程

fasttext的架構圖為:

分為輸入層、隱含層、輸出層,下面分別介紹這三層:

隱藏層對所有輸入特徵取均值。

輸出層使用word2vec一節中介紹的層次softmax輸出文件類別,霍夫曼樹的構造基於每個類別出現的頻數。

fasttext架構與cbow非常相似,不同的是:

fasttext的核心思想就是:將整篇文件的詞及n-gram向量疊加平均得到文件向量,然後使用文件向量做softmax多分類。

fasttext的優點

詞嵌入方法

對於自然語言處理任務,我們不能直接使用純文字字串作為輸出,而是需要將文字字元轉化為連續值的向量。詞嵌入的主要思想是將文字轉換為較低維度空間的向量表示。對於這種轉化後的向量有兩個重要的要求 總的來說,詞嵌入就是一種 從文字語料庫構建低維向量表示的方法,可以保留單詞的上下文相似性。現在我們知道它是什麼,...

5 2 5學習詞嵌入

課前提問 問題1 什麼是詞嵌入?問題2 如何嵌入?課後回答 1 什麼是學習詞嵌入?答案 學習詞嵌入是功能,即向系統輸入依次幾個單詞,系統自動 出下乙個單詞是什麼,eg a glass of orange 系統會自動 出juice這個單詞,我們把系統的這種功能叫做 學習詞嵌入 2 如何嵌入?答案 首先...

理解詞嵌入WordEmbedding

詞嵌入,英文為 word embedding,這是語言表示的一種方式。它可以讓演算法理解一些類似的詞。我們可以用one hot向量來表示詞,如下圖所示。這種表示方式,我們需要首先獲取乙個字典,比如字典中有100000個詞。對每乙個詞,都得到乙個向量,其中該詞對應位置上置一,其他位置置零。比如man這...