使用BERT獲取中文詞向量

2021-09-11 21:56:30 字數 356 閱讀 6919

bert其中的乙個重要作用是可以生成詞向量,它可以解決word2vec中無法解決的一詞多義問題。

然而bert獲取詞向量的門檻要比word2vec要高得多。筆者在這裡介紹一下如何獲取bert的詞向量。

筆者在獲取bert詞向量的時候用到了肖涵博士的bert-as-service,具體使用方式如下。

接著可以在pycharm終端寫入以下**:

from bert_serving.client import bertclient

bc = bertclient()

print(bc.encode(['中國', '美國']))

可得到詞向量為(詞向量的維度為768):

獲得Bert預訓練好的中文詞向量

安裝肖涵博士的bert as service pip install bert serving server pip install bert serving client 啟動bert as service 找到bert serving start.exe所在的資料夾 我直接用的anaconda ...

訓練中文詞向量

執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...

glove中文詞向量 GloVe

做自然語言處理的時候很多時候會用的word embedding,訓練詞向量的方法主要有兩條路 glove模型就是將這兩中特徵合併到一起的,即使用了語料庫的全域性統計特徵,也使用了區域性的上下文特徵。為了做到這一點glove模型引入了co occurrence probabilities matrix...