Sentence2Vec模型介紹

2021-08-14 08:26:42 字數 816 閱讀 1799

本文是對**a ****** but tough-to-beat baseline for sentence embeddings中演算法的簡要描述,具體細節請參考**實現。

1.對乙個句子中所有詞的詞向量進行加權平均,每個詞向量的權重可以表示為aa

+p(w

) ,其中

a 為引數,p(

w)為詞w

的頻率。

2.使用pca/svd對向量值進行修改

演算法具體描述如下:

演算法輸入:

1. 詞向量vw

:w∈v

,w表示詞典中

w中的乙個詞。該向量可以使用glove/word2vec/psl等詞向量。

2. 句子集合

s 。

3. 引數a。

4. 詞頻p(

w):w

∈v,p(w

) 表示詞

w 出現的頻率。

演算法輸出:句子s

的向量表示vs

:s∈s

演算法細節以及**實現參考github。

a ****** but tough-to-beat baseline for sentence embeddings

載入GloVe模型和Word2Vec模型

1 google用word2vec預訓練了300維的新聞語料的詞向量googlenews vecctors negative300.bin,解壓後3.39個g。可以用gensim載入進來,但是需要記憶體足夠大。載入google訓練的詞向量 import gensim model gensim.mod...

Word2Vec教程 Skip Gram模型

這個教程包含 訓練word2vec的 skip gram 模型。通過這個教程,我希望跳過常規word2vec 的介紹和抽象理解,而是去討論一些細節。特別是skip gram的網路結構。skipgram model 常常讓人驚訝於它的簡單結構。我認為基本沒啥彎路,或者需要複雜的模型解釋。讓我們從高層語...

小小word2vec模型訓練

嗨,好久不見啊!今天我們來完成乙個word2vec模型訓練,學習筆記有挺多人寫的,不瞞您說,小白也是看別人的部落格學習的。所以這次,小白就直接上手例項啦,一起嘛?首先介紹一下模型引數 通過jieba分詞 import jieba import pandas as pd 把文字檔案讀進來,再分詞,去停...