獲得Bert預訓練好的中文詞向量

2021-09-24 00:08:52 字數 1230 閱讀 7645

安裝肖涵博士的bert-as-service:

pip install bert-serving-server

pip install bert-serving-client

啟動bert-as-service:

找到bert-serving-start.exe所在的資料夾(我直接用的anaconda prompt安裝的,bert-serving-start.exe在f:\anaconda\scripts目錄下。)找到訓練好的詞向量模型並解壓,路徑如下:g:\python\bert_chinese\chinese_l-12_h-768_a-12

開啟cmd視窗,進入到bert-serving-start.exe所在的檔案目錄下,然後輸入:

bert-serving-start -model_dir g:\python\bert_chinese\chinese_l-12_h-768_a-12 -num_worker=1

即可啟動bert-as-service(num_worker好像是bert服務的程序數,例num_worker = 2,意味著它可以最高處理來自 2個客戶端的併發請求。)

啟動後結果如下:

此視窗不要關閉,然後在編譯器中即可使用。

獲取bert預訓練好的中文詞向量:

from bert_serving.client import bertclient

bc = bertclient()

print(bc.encode([「none」,「沒有」,「偷東西」]))#獲取詞的向量表示

print(bc.encode([「none沒有偷東西」]))#獲取分詞前的句子的向量表示

print(bc.encode([「none 沒有 偷 東西」]))#獲取分詞後的句子向量表示

結果如下:其中每乙個向量均是768維。

可以看出分詞並不會對句子的向量產生影響。

參考文章:

1.2.

BERT 中文預訓練模型使用

只要是從事文字處理相關工作的人應該都知道 google 最新發布的 bert 模型,該模型屬於是詞向量的預訓練模型,一經提出便橫掃各大 nlp 任務,最近 google 公司如約推出了中文詞向量的預訓練模型,不得不說這是一件非常有良心的事情,在此膜拜和感謝 google 公司。那麼如何使用 bert...

基於bert預訓練模型的比較

基於bert預訓練模型的比較 electra roberta bert wwm albert xlnet 預訓練任務替換詞檢驗 遮掩詞 與bert相同 遮掩詞 sop permutation lm pretraining model生成器 判別器的模式,生成器與判別器的網路結構均為transform...

BERT的通俗理解 預訓練模型 微調

1 預訓練模型 bert是乙個預訓練的模型,那麼什麼是預訓練呢?舉例子進行簡單的介紹 假設已有a訓練集,先用a對網路進行預訓練,在a任務上學會網路引數,然後儲存以備後用,當來乙個新的任務b,採取相同的網路結構,網路引數初始化的時候可以載入a學習好的引數,其他的高層引數隨機初始化,之後用b任務的訓練資...