如何使用bert

bert原文中文翻譯版，**位址。

uer-py全稱是universal encoder representations，uer-py是乙個在通用語料預訓練以及對下游任務進行微調的工具包。github專案位址。

uer的一些教程，知乎教程（bert做情感分類、序列標註）。

uer分類**的介紹，參考uer-py/run_classifier.py。

#bert載入的關鍵** model = build_model(args) # load or initialize parameters. if args.pretrained_model_path is notnone :# initialize with pretrained model. model.load_state_dict(torch.load(args.pretrained_model_path) , strict= false )else :# initialize with normal distribution. for n, p in list (model.named_parameters()) :if'gamma' notin n and 'beta' notin n: p.data.normal_(0, 0.02 )#這是model就是乙個已經把預訓練權重全部載入好了的模型了。 #我們先使用model.embedding 把token轉化為embedding，然後呼叫model.encoder #進行bert編碼。 #在這個模型中，把載入好的bert model作為引數傳入了自己建立的分類模型。

為什麼可以載入bert模型呢？

實際上就是和我們平時儲存載入模型一樣，網上發布的模型通常是他們在大規模語料上訓練的模型的權重，只要我們實現了和網上權重對應的bert模型，就可以把相應的引數load進去，下面我們介紹下乙個pytorch上的bert模型。

專案名稱 pytorch-pretrained-bert.

這個專案時fork乙個專案transformer的乙個實現，裡面的實現也是基本差不多，不過transformer封裝的更好，類間的關係的複雜，**的冗餘比較低，但我還沒有怎麼看tranformer的用法。這個專案有個好處，每乙個類的實現比較完整，比較方便自己去改動。

如何安裝，建議使用原始碼安裝，pip直接安裝會報錯。

pip install -

-editable .

# 注意最後面的 . 不能省略。

import torch
from pytorch_pretrained_bert import berttokenizer, bertmodel, bertformaskedlm
#load pre-trained model tokenizer (vocabulary)
tokenizer = berttokenizer.from_pretrained(
'bert/bert-base-chinese-vocab.txt'
)model = bertmodel.from_pretrained(
'bert'
)#這樣就可以載入模型權重了。詳細的使用教程可以參考github上的示例。

在自己的資料集上進行bert任務的學習，可以進一步把權重學的更好，使用方法，資料要處理成這種格式

然後依次執行preprocess.py 和 pretrain.py即可，這裡遇到乙個問題，在使用gpu時實驗室的伺服器會報錯，我在自己的電腦是可以正常執行的，猜測是由於pytorch的版本造成的問題。

pytorch_pretrained_bert如何進行預訓練，在examples檔案中有乙個run_lm_finetuning.py檔案。

如何使用bert

如何使用bert做word embedding

Bert原理與使用

bert 中文使用（2）

如何使用bert

如何使用bert做word embedding

Bert原理與使用

bert 中文使用（2）

相關推薦