學習筆記 詞向量與詞嵌入

2022-02-17 00:28:49 字數 1921 閱讀 9685

詞---->向量:   叫做【詞向量化】, 文字向量化(vectorize)是指將文字轉換為數值張量的過程

多種實現方法

將文字分割為單詞,並將每個單詞轉換為乙個向量。

將文字分割為字元,並將每個字元轉換為乙個向量。

提取單詞或字元的 n-gram(n元),並將每個 n-gram 轉換為乙個向量。n-gram 是多個連續單詞或字元的集合(n-gram 之間可重疊)。

將文字分解而成的單元(單詞、字元或n-gram)叫作標記(token),將文字分解成標記的過程叫作分詞(tokenization)

所有文字向量化過程都是應用某種分詞方案,然後將數值向量與生成的標記相關聯。這些向量組合成序列張量,被輸入到深度神經網路中(見圖6-1)。將向量與標記相關聯的方法有很多種。本節將介紹兩種主要方法:對標記做one-hot 編碼(one-hot

encoding)與標記嵌入[token embedding,通常只用於單詞,叫作詞嵌入(word embedding)]。

詞向量化有兩種方式: 

2. word embedding: 詞嵌入。 優點是降低維度(將vector每乙個元素由整形改為浮點型,變為整個實數範圍的表示;將原來稀疏的巨大維度壓縮嵌入到乙個更小維度的空間)

詞嵌入模型

1. cbow模型 (continuous bag-of-words model): 上下文來**當前詞

2. skip-gram模型(continuous skip-gram model):當前詞**上下文

兩種模型優化方法

1. negative sample : 負取樣

2. hierarchical softmax:層次化softmax. 把 n 分類問題變成 log(n)次二分類。 用huffman樹計算概率值,而不是傳統的softmax.

word2vec: 是谷歌提出的一種詞嵌入的具體方法,採用了兩種模型(cbow與skip-gram模型)與兩種方法(負取樣與層次softmax方法)的組合,比較常見的組合為 skip-gram+負取樣方法。

詞嵌入的訓練方法

1)無監督或弱監督的預訓練 

優點:不需要大量的人工標記樣本就可以得到質量還不錯的embedding向量 

缺點:準確率有待提高 

解決辦法:得到預訓練的embedding向量後,用少量人工標註的樣本再去優化整個模型 

典型代表:word2vec和auto-encoder 

(這裡解釋一下autoencoder,autoencoder也可以用於訓練詞向量,先將one hot對映成乙個hidden state,再對映回原來的維度,令輸入等於輸出,取中間的hidden vector作為詞向量,在不損耗原表達能力的前提下壓縮向量維度,得到乙個壓縮的向量表達形式。) 

2)端對端(end to end)的有監督訓練。

優點:學習到的embedding向量也往往更加準確

缺點:模型在結構上往往更加複雜

應用:通過乙個embedding層和若干個卷積層連線而成的深度神經網路以實現對句子的情感分類,可以學習到語義更豐富的詞向量表達。

兩者比較:word2vec不關心後續的應用場景,其學習到的是就是根據共現資訊得到的單詞的表達,用n-gram資訊來監督,在不同的子task間都會有一定效果。而end2end訓練的embedding其和具體子task的學習目標緊密相關,直接遷移到另乙個子task的能力非常弱。

常用的詞嵌入分為

dense(稠密)和sparse(稀疏)兩種形式

常見的sparse就比如 co-occurence 或者one-hot的形式;對sparse embedding進行一些降維運算比如svd、pca就可以得到dense。

詞向量 詞嵌入 word embedding

embedding 嵌入 embedding 嵌入,在數學上表示乙個對映f x y,是將x所在的空間對映到y所在空間上去,並且在x空間中每乙個x有y空間中唯一的y與其對應。嵌入,也就是把x在y空間中找到乙個位置嵌入,乙個x嵌入為乙個唯一的y。word embedding 詞嵌入 也就是把當前預料文字...

學習筆記(一) 詞向量

詞向量 詞向量可以表示兩個詞的語義相似度 可以訓練詞向量的模型主要有 cbow skip gram nnlm glove elmo mf 矩陣分解 gause embedding bert skip gram 根據中心詞 上下文 對於 w1,w2,w3,w4,w5 p p w2 w1 p w1 w2...

學習詞向量from Sebastian Ruder

參考 無監督學習得到的詞向量在nlp任務中取得巨大成功。而且近兩年acl和emnlp會議上有關詞向量的文章特別多,甚至有人調侃embedding methods in natural language processing更適合emnlp。簡單來說,詞向量是單詞在低維空間的稠密表示。主要講神經詞向量...