python3下使Word2Vec每次執行結果一致

我們經常使用gensim的word2vec來進行單詞轉向量，但是這個包存在乙個問題，每次訓練結果都不同，這就導致了特徵無法復現。

查閱word2vec的官方文件，在seed引數**可以發現這樣的解釋：

在python2中，只要設定seed（隨機種子）引數，以及worker=1即可保證每次訓練一致，但python3還需要設定pythonhashseed引數，

經驗證使用os.environ['pythonhashseed '] =『**'無法起作用，必須修改系統環境變數。

python的字串hash演算法並不是直接遍歷字串每個字元去計算hash，而是會有乙個secret prefix和乙個secret suffix，可以認為相當於是給字串加鹽後做hash，可以規避一些規律輸入的情況。

顯然這個secret前字尾的值會直接影響計算結果，而且它有乙個啟動時隨機生成的機制，只不過，在2.x版本中，這個機制預設是關閉的，前字尾每次啟動都設定為0，除非你改了相關環境變數來要求隨機，而在3.x中修改了預設行為，如果你不配置環境變數，則預設是隨機乙個前字尾值，這樣每次啟動都會不同，這個功能有一定的安全性上的考慮，可以讓攻擊者難以**內建的set或者dict的一些行為。

這個環境變數就是pythonhashseed，配置方法如下：

python3下使Word2Vec每次執行結果一致

TensorFlow 讀書筆記 Word2Vec

Python3 讀取Word檔案

python2與python3迭代器的使用

python3下使Word2Vec每次執行結果一致

TensorFlow 讀書筆記 Word2Vec

Python3 讀取Word檔案

python2與python3迭代器的使用

相關推薦