StructBERT模型記錄

2022-08-15 05:48:16 字數 633 閱讀 2628

structbert模型是達摩院提出的bert系列模型,相比bert模型而言,主要增加了兩個預訓練任務來提公升模型效能:

word structural objective是從未被遮掩的序列中

以5%的機率

選擇部分

長度為3子串行,將子串行中的詞序打亂,讓模型重建原來的詞序,從而使模型學習到句子中的詞序關係。

sentence structural objective如上圖所示,

給定句子對(s1,s2),判斷

s2是否是

s1的下乙個句子,或上乙個句子,或毫無關聯的句子。在取樣時,對於乙個句子s,

1/3的概率取樣

s的下一句組成句對,

1/3的概率取樣

s的上一句組成句對,

1/3的概率隨機取樣乙個其他文件的句子組成句對。

自學記錄 django模型使用記錄

對於重要資料都做邏輯刪除,不做物理刪除,實現方法是定義isdelete欄位,型別為booleanfield,預設值為false 字段型別概括 floatfield 用python的float例項來表示的浮點數 datefield auto now false,auto now add false 使...

TCP IP 參考模型(記錄)

網路訪問層 網路訪問層的功能包括ip位址與物理硬體位址對映,以及將ip分組封裝成幀。基於不同硬體型別的網路介面,網路訪問層定義了和物理介質的連線。網路訪問層包含了資料鏈路層的位址,如用在乙太網上就是mac位址。該層是tcp ip模型的最底層,負責接收ip層傳來的ip資料報,並將資料報通過低層物理網路...

記憶體分割槽模型(C 學習記錄)

c 程式在執行時,將記憶體大方向劃分為4個區域 記憶體四區意義 不同區域存放的資料,賦予不同的生命週期,給我們更大的靈活程式設計 在程式編譯後,生成了exe可執行程式,未執行該程式前分為兩個區域 1.區 存放 cpu 執行的機器指令.區是共享的,共享的目的是對於頻繁被執行的程式,只需要在記憶體中有乙...