使用word2vec的幾種方法

2021-08-21 09:42:05 字數 895 閱讀 2445

使用word2vec的幾種方法

先導入可能用到的包

from gensim.models import word2vec

import gensim.models.word2vec as w2v

第一種:語料放在檔案裡面,這個語料是先要分好詞的

source_code_path = '../data/sourcedata/word2vecfile.txt'

sentences = w2v.linesentence(source_code_path)model = word2vec(sentences,

size=300

,window=5

,min_count=1

,workers=2)

print(model.similarity('廣告'

,'廣東')) #檢視 兩個詞的相似度

print(model.wv['廣告']) # 檢視這個詞的 詞向量

print(model.most_similar('廣告')) # 檢視和 這個詞最相關的幾個詞

第二種:語料庫是乙個list

sentences = [["cat"

, "say"

, "meow"], ["dog"

, "say"

, "woof"]]model = word2vec(sentences,

size=300

,window=5

,min_count=1

,workers=2)

print(model.similarity('cat'

,'dog'))

print(model.wv['cat'])

print(model.most_similar('cat'))

與word2vec 原來word2vec那麼簡單

說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...

word2vec使用說明

word2vec是谷歌2013年開源的工具,原始 這個工具能比較高效的訓練出詞向量。word2vec 引數說明 預設 word2vec train text8 output vectors.bin cbow 0 size 100 window 5 negative 0 hs 1 sample 1e ...

word2vec學習參考

最近看nlp的東西比較多。就拿現在google 基於神經網路做的 word2vec 作為部落格的開始吧,今後會陸陸續續補充內容。基本是分4塊內容 1.神經網路語言模型 2.語言模型分層優化 3.word2vec 原理 4.google word2vec 看一點寫一點,先扔些參考資料鏈接上去。附上在研...