word2vec實驗經驗總結

最近進行的專案，前期要求利用word2vec做相關的向量化處理，於是作為小白從頭開始學習word2vec的基本原理，然後開始實驗練手。在這裡po一些學習和實驗過程中的資料、注意點和經驗點。

基本原理篇

原理上讀了mikolov 2023年的 efficient estimation of word representations in vector space，裡面提出兩種模型cbow和skip-gram，具體實現方法和原理我還沒有看**，有空的時候會review一下。

準備工作篇

因為後期要用到linux下的python環境，之前偷懶一直沒有給ubuntu裝python環境，這次借機會好好裝了一次。

我是ubuntu16.04，因為ubuntu系統都會預裝python環境，所以原來的版本是python2.7。我選擇直接裝乙個集大成的anaconda。在這裡遇到乙個小問題阻礙了我很久，導致重灌了好幾次- -

情況是，用官網的安裝包解壓安裝好anaconda以後，雖然python –version可以顯示正確的python版本號（我裝的是3.5.2），但是直接python命令或用python命令執行程式都會報錯說少乙個package。

所以在這裡要注意了！因為新裝的python版本和系統預裝的python版本不一致，命令列中的python實際上執行的仍然是系統預裝的2.7版本！一定一定要去 /usr/bin 下面把原來指向舊版本的軟鏈結mv掉，然後為我們新裝的3.5版本建立軟鏈結到python。完成後再次命令列執行python~問題解決！

wiki資料集處理

實驗過程基本參考52nlp上的步驟：

word2vec模型訓練

實踐中。。。

word2vec實驗經驗總結

Word2Vec知識總結

與word2vec 原來word2vec那麼簡單

word2vec學習參考

word2vec實驗經驗總結

Word2Vec知識總結

與word2vec 原來word2vec那麼簡單

word2vec學習參考

相關推薦