word2dec的演算法

詞向量的設計演算法：

1：one-hot represention:就是用乙個很長的向量來表示乙個詞，向量的長度為詞典d的大小n，向量的分量只有乙個1，其餘全為0.1的位置對應該詞在詞典中的索引。但這種詞向量表示有一些缺點，如容易受維數災難的困擾，尤其是將其用於deep learning 場景時；也不能能很好的刻畫詞與詞之間的相似性。

2：:distributed representation:通過訓練將某種語言中的每乙個詞對映成乙個固定長度的短向量，所有這些詞向量構成乙個詞向量空間，而每一向量可以視為該空間的乙個點，在這個空間上引入距離，就可以根據詞之間的距離來判斷它們之間的（語法語義）相似性了。word2dec就是採用的這種詞向量。

模型：1：基於hierarchical softmax 的cbow模型（continuous bag-of-words model）:

2:基於hierarchical softmax 的skip-gram模型（continuous skip-gram model）:

3:基於negative sampling 的cbow模型（continuous bag-of-words model）:

4:基於negative sampling 的skip-gram模型（continuous skip-gram model）:

word2dec的演算法

MATLAB的dec2bin函式的使用

word2vec 的相關概念

對word2vec skip gram模型的理解

word2dec的演算法

MATLAB的dec2bin函式的使用

word2vec 的相關概念

對word2vec skip gram模型的理解

相關推薦