Bert及變種簡述

2022-04-03 03:03:21 字數 591 閱讀 3892

老大哥模型,模型的兩個目標mlm和nsp,採用靜態masking(模型預訓練之前已經確定了masking的位置)

bert模型的精簡版本,引數更少,訓練更快,主要有以下改動:

矩陣分解。詞向量v到encoder全連線m進行分解,bert中參數量:v*m,albert:v*h+m*h=(v+m)*h,h可以比較小,因為詞的數目有限的,和下游的語義相比可以有更小的維度

貢獻權重。encoder權重貢獻(當然也可以只共享multi-head attention或者feed forwa neural network)

sop代替nsp。nsp是第二個句子通過取樣獲得,**其是不是後面乙個句子;sop,將前後兩個句子顛倒,**句子的順序

參考

其他的以後再寫吧。。。。 

0 1揹包問題及變種

0 1揹包問題 有n件物品和乙個容量為v的揹包。第i件物品的費用是c i 價值是w i 求解將哪些物品裝入揹包可使這些物品的費用總和不超過揹包容量,且價值總和最大。這個問題的特點是 每種物品只有一件,可以選擇放或者不放。演算法基本思想 利用動態規劃思想 子問題為 f i v 表示前i件物品恰放入乙個...

Perlin Noise變種及無縫紋理生成

一 perlin noise變種 通過前面幾篇文章,我們已經成功實現了1d,2d,3d,4d perlin 雜訊,perlin雜訊實現不是很複雜,但是我們也應該注意到,隨著維度的增多,實現的複雜度也在大幅度增加,包括permutation表的檢索和插值都會變得越來越難以控制,而且效能瓶頸表現得也是越...

簡述dfs,bfs,Dijkstra思想及區別

在做pat的時候,用dfs寫了一道題的解超時,看別人的解法時,發現別人用了dijkstra演算法,瞬間自己就混亂了,因為之前也看過dijkstra,bfs演算法,但是當時居然都傻傻分不清楚了,所以決定寫一篇總結一下。一 廣度優先演算法 bfs 先搜尋鄰居,搜完鄰居再搜鄰居的鄰居。其中倆個思想 1.雙...