word2vec你可能不知道的秘密

2021-09-02 07:26:43 字數 894 閱讀 5513

這裡並不是介紹word2vec的原理,因為原理介紹方面的資料網上多的是:推薦兩個我認為很有價值的

另外可以用python的matplotlib。

五、categorization 分類 看詞在每個分類中的概率

詞動物食物汽車電子橘子0.110.680.120.11鳥0.660.110.130.11雅閣0.140.230.670.11蘋果0.110.650.110.65

前三條來自官網的評測方法

網上也有相關的word embedding 的評估方法,可以參考這裡

word2vec :

spark mllib word2vec訓練,轉換成google word vector形式:

word2vec效果展示:

1、目前word embedding的工具有 fasttext,glove ,word2vec,elmo等,前三者對比效果差不多,關鍵在語料構建上面下功夫。elmo這個是基於監督的。

2、spark 版本有bug,迭代次數超過1,訓練得到的詞向量維度值超大。推薦用gensim,挺好用的,用spark算的話,一般語料很大了,沒有迭代也沒關係。

3、思考乙個提問:word2vec可以用來做特徵選擇,相比於傳統的特徵選擇方法能夠增加語義理解。很多文章裡面的解決方法是將低頻詞通過word2vec 對映到高頻詞去。那麼是否是先用tfidf來將詞的權重算出來,然後得到高頻和低頻詞,這個時候再使用word2vec模型的相似度計算來把低頻詞轉化成高頻詞,達到降維的效果呢?

你可能不知道的東西

元素可以分為塊級元素,行內元素以及行內塊級元素。行內元素的margin或者padding只有margin left和margin right以及padding left和padding right有效果,margin top margin bottom padding top padding bot...

你可能不知道的const

眾所周知,使用 const 宣告的變數必須同時初始化為某個值。一經宣告,在其生命週期的任何時候都不能再重新賦予新值 const a syntaxerror 常量宣告時沒有初始化 const b 3 console.log b 3 b 4 typeerror 給常量賦值const 宣告只應用到頂級原語...

你可能不知道的python logging機制

先來看幾個例子,先想一下執行結果,答案稍後揭曉 例一 mylogger logging.getlogger mylogger mylogger.info mylogger info mylogger.warning mylogger warning 例二 mylogger logging.getlo...