使用BERT獲取中文詞向量

bert其中的乙個重要作用是可以生成詞向量，它可以解決word2vec中無法解決的一詞多義問題。

然而bert獲取詞向量的門檻要比word2vec要高得多。筆者在這裡介紹一下如何獲取bert的詞向量。

筆者在獲取bert詞向量的時候用到了肖涵博士的bert-as-service，具體使用方式如下。

接著可以在pycharm終端寫入以下**：

from bert_serving.client import bertclient
bc = bertclient()
print(bc.encode(['中國', '美國']))

可得到詞向量為（詞向量的維度為768）：

獲得Bert預訓練好的中文詞向量

安裝肖涵博士的bert as service pip install bert serving server pip install bert serving client 啟動bert as service 找到bert serving start.exe所在的資料夾我直接用的anaconda ...

訓練中文詞向量

執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...

glove中文詞向量 GloVe

做自然語言處理的時候很多時候會用的word embedding，訓練詞向量的方法主要有兩條路 glove模型就是將這兩中特徵合併到一起的，即使用了語料庫的全域性統計特徵，也使用了區域性的上下文特徵。為了做到這一點glove模型引入了co occurrence probabilities matrix...

使用BERT獲取中文詞向量

獲得Bert預訓練好的中文詞向量

訓練中文詞向量

glove中文詞向量 GloVe

相關推薦