關於bidaf和bert的簡要回顧

2021-10-13 05:30:10 字數 505 閱讀 9510

01簡述bidaf

bidaf主要是通過encoding中的charembeding和word embeding 通過lstm構建出contextual embedding部分,然後contextual embedding構建context-to-query和query-to-context的注意力方式,融合query和context的資訊,然後將它們之間融合,再通過lstm得到對應的output結果。

02 bert

bert的encoding部分採用mask方式將部分資訊遮擋,借用transformer的encoding部分,得到詞與詞之間不同位置的相互資訊,在pre-train的時候引入了兩項任務,mlm的任務,就是**mask的部分,還有nsp任務,nsp是將encoding部分的2組句子拼接在一起,在pre-train的時候**後乙個句子是否為銜接著前乙個句子。然後在fine-tuning引入其它模型做別的任務,比如文字分類,翻譯,機器閱讀理解,實體識別等等。

關於梯度下降的簡要概述

這裡寫的是最小二乘的線性回歸方法,用梯度下降來調整引數。首先我們看一些符號 m 樣本數量 n 引數個數 xi 第i個樣本的特徵 feature 向量 xji 第i個樣本的第j個特徵 y 樣本真實值,是乙個向量 引數向量 或者你直接理解成陣列可能比較好理解,程式中以alpha命名 步長 學習率,程式中...

關於各種編碼的簡要理解

gb2312 兩個大於127的字元連在一起時,就表示乙個漢字。還重新編碼了acsii,於是被重新編碼的兩個位元組acsii就是常說的 全形 字元,而原來127以下的那些就叫做 半形 字元。gbk 只要第乙個位元組大於127,就固定表示這是乙個漢字的開始,gbk包括了gb2312的所有內容,同時又增加...

關於sql注入的簡要演示

首先可能大家都會問什麼是sql?sql是資料庫的一種型別,是用來儲存 資料的。我們來梳理一下訪問網頁的簡圖 看完這個以後,我們發現乙個問題,當我們對傳送資料這塊動足夠腦筋的時候,只要輸入合理是可以做很多事情的,我們可以利用其方式獲取很多內容。接下來我們來講解一下 這個符號在sql中的運用 首先 在s...