BERT背景介紹 Attention機制

2021-10-08 09:54:16 字數 1679 閱讀 9109

學習bert一段時間了,但是還是沒搞懂attention是什麼,今天再來學習一下。

形象化展示了人類在看到一副影象時是如何高效分配有限的注意力資源的,其中紅色區域表明視覺系統更關注的目標,很明顯對於所示的場景,人們會把注意力更多投入到人的臉部,文字的標題以及文章首句等位置。深度學習中的注意力機制從本質上講和人類的選擇性視覺注意力機制類似,核心目標也是從眾多資訊中選擇出對當前任務目標更關鍵的資訊。

在神經網路模型處理大量輸入資訊的過程中,利用注意力機制,可以做到只選擇一些關鍵的輸入資訊進行處理,來提高神經網路的效率。如上在計算機視覺和自然語言處理中。

從數學公式上和**實現上attention可以理解為加權求和。假設?=[?_1,?_2,…,?_?]表示n個輸入資訊,為了節省計算資源,不需要讓神經網路處理這n個輸入資訊,而只需要從x中選擇一些與任務相關的資訊輸入進行計算。注意力機制在具體實現上有很多種型別,例如:self-attention、soft attention、hard attention等。

接下來的例子以soft attention為例子來闡述。 soft attention是指在選擇資訊的時候,不是從n個資訊中只選擇1個,而是計算n個輸入資訊的加權平均,再輸入到神經網路中計算。把輸入資訊向量x看做是乙個資訊儲存器,現在給定乙個查詢向量q,用來查詢並選擇x中的某些資訊,那麼就需要知道被選擇資訊的索引位置。定義乙個注意力變數?∈[1, ?]來表示被選擇資訊的索引位置,即?=?來表示選擇了第i個輸入資訊,然後計算在給定了q和x的情況下,選擇第i個輸入資訊的概率?_?:

注意力分布??表示在給定查詢?時,輸入資訊向量?中第?個資訊與查詢?的相關程度。採用「軟性」資訊選擇機制給出查詢所得的結果,就是用加權平均的方式對輸入資訊進行彙總,得到attention值:

目前attention機制在深度學習領域裡得到了廣泛的使用。

bert簡介 Bert基礎介紹

bert理解 1 預訓練模型 bert是乙個預訓練的模型,那麼什麼是預訓練呢?假設已有a訓練集,先用a對網路進行預訓練,在a任務上學會網路引數,然後儲存以備後用。預訓練過程 當來乙個新的任務b,採取相同的網路結構,網路引數初始化的時候可以載入a訓練集學習好的引數,其他的高層引數隨機初始化,之後用b任...

BERT簡要介紹

bert bidirectional encoder representation from transformers 網路架構由 jacob devlin 等人提出用於預訓練,學習在給定上下文下給出詞的 embedding 表示。bert 採用了 transformer 架構的編碼器部分用於學習詞...

Bert演算法 語言模型 BERT詳細介紹

本文的目的是向nlp愛好者們詳細解析乙個著名的語言模型 bert。全文將分4個部分由淺入深的依次講解。1.bert簡介 bert是2018年10月由google ai研究院提出的一種預訓練模型。bert的全稱是bidirectional encoder representation from tra...