詞嵌入矩陣 Word Embeddings 的生成

2021-09-28 15:35:35 字數 556 閱讀 8712

詞嵌入矩陣是自然語言處理裡非常重要的東西。它可以幫助我們快速的使用小樣本建立乙個不錯的自然語言處理任務。那麼他是如何生成的呢。

詞嵌入矩陣一般在乙個很大的字型檔裡學習的,其中包含許多的單詞,格式為[keyword_num,vec_num]。

keyword_num就是訓練字型檔的字的數量(英文為乙個單詞或乙個字母);

vec_num代表了用多少維的向量表示字型檔裡的乙個字。

輸入的資料為一句話,格式為[m,maxlen]

m為輸入樣本數;

maxlen為句子的最大長度,不夠用0補全。

每個maxlen為乙個單詞在字型檔裡的編號,我們知道乙個單詞可以表示為乙個one_hot向量,只有乙個位置為1,其他為0。此處為這個位置的索引。

每個這樣的one_hot向量與詞嵌入矩陣相乘得到最後的網路輸入,維度為[m,maxlen,vec_num]。

現在一般使用其他人訓練好的詞嵌入矩陣,很多人已經使用龐大的字型檔對詞嵌入矩陣進行訓練。而且網上已經有大量的開源詞嵌入矩陣的訓練結果。

詞嵌入矩陣的訓練方法為,使用word2vec,負樣本,skip-gram,glove等。

詞嵌入方法

對於自然語言處理任務,我們不能直接使用純文字字串作為輸出,而是需要將文字字元轉化為連續值的向量。詞嵌入的主要思想是將文字轉換為較低維度空間的向量表示。對於這種轉化後的向量有兩個重要的要求 總的來說,詞嵌入就是一種 從文字語料庫構建低維向量表示的方法,可以保留單詞的上下文相似性。現在我們知道它是什麼,...

5 2 5學習詞嵌入

課前提問 問題1 什麼是詞嵌入?問題2 如何嵌入?課後回答 1 什麼是學習詞嵌入?答案 學習詞嵌入是功能,即向系統輸入依次幾個單詞,系統自動 出下乙個單詞是什麼,eg a glass of orange 系統會自動 出juice這個單詞,我們把系統的這種功能叫做 學習詞嵌入 2 如何嵌入?答案 首先...

理解詞嵌入WordEmbedding

詞嵌入,英文為 word embedding,這是語言表示的一種方式。它可以讓演算法理解一些類似的詞。我們可以用one hot向量來表示詞,如下圖所示。這種表示方式,我們需要首先獲取乙個字典,比如字典中有100000個詞。對每乙個詞,都得到乙個向量,其中該詞對應位置上置一,其他位置置零。比如man這...