word2vec使用說明

word2vec是谷歌2023年開源的工具，原始**，這個工具能比較高效的訓練出詞向量。

word2vec **引數說明：

預設：./word2vec -train text8 -output vectors.bin -cbow 0 -size 100 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 20

預設5個windows ，預設架構skip

預設迭代20次

預設 hs

size 預設100

執行緒預設 20

引數解釋：

訓練架構：cbow skip

windows : 視窗大小，乙個詞前幾個和後幾個詞語

-negative 0 -hs 1 ：不使用neg方法，使用hs方法

-sampe指的是取樣的閾值，如果乙個詞語在訓練樣本中出現的頻率越大，那麼就越會被取樣。

word2vec還有幾個引數對我們比較有用比如-alpha設定學習速率，預設的為0.025. –min-count設定最低頻率，預設是5，如果乙個詞語在文件中出現的次數小於5，那麼就會丟棄。-classes設定聚類個數，看了一下原始碼用的是k-means聚類的方法。要注意-threads 20 執行緒數也會對結果產生影響。

比較：架構：skip-gram（慢、對罕見字有利）vs cbow（快）

· 訓練演算法：分層softmax（對罕見字有利）vs 負取樣（對常見詞和低緯向量有利）

· 欠取樣頻繁詞：可以提高結果的準確性和速度（適用範圍1e-3到1e-5）

· 文字（window）大小：skip-gram通常在10附近，cbow通常在5附近

1.to compute accuracy with the full vocabulary,use:

./compute-accuracy vectors.bin < questions-words.txt

詞向量的加減法

2.短語的精確度

./compute-accuracy vectors-phase.bin < questions-phrases.txt

3.questions-words.txt說明

capital-common-countries（506條）：semantic accuracy

capital-world(1452條):semantic accuracy

currency(貨幣268條)：semantic accuracy

city-in-state(1571條)：semantic accuracy

family(306條)：semantic accuracy

gram1-adjective-to-adverb(756條)：semantic accuracy，syntactic(句法) accuracy

gram2-opposite(306條)：semantic accuracy，syntactic(句法) accuracy

gram3-comparative比較級（1260條）：semantic accuracy，syntactic(句法) accuracy

gram4-superlative最高端（506）：

gram5-present-participle（992）：

code coding dance dancing

gram6-nationality-adjective（1371條）：

albania albanian australia australian

gram7-past-tense（1332）：

gram8-plural（992）

gram9-plural-verbs（650）

text8： 12268/19544 =62.77%

4.demo-classes.sh聚類

5.demo-analogy.sh模擬

word2vec使用說明

與word2vec 原來word2vec那麼簡單

word2vec學習參考

Word2Vec知識總結

word2vec使用說明

與word2vec 原來word2vec那麼簡單

word2vec學習參考

Word2Vec知識總結

相關推薦