BERT背景介紹 Attention機制

學習bert一段時間了，但是還是沒搞懂attention是什麼，今天再來學習一下。

形象化展示了人類在看到一副影象時是如何高效分配有限的注意力資源的，其中紅色區域表明視覺系統更關注的目標，很明顯對於所示的場景，人們會把注意力更多投入到人的臉部，文字的標題以及文章首句等位置。深度學習中的注意力機制從本質上講和人類的選擇性視覺注意力機制類似，核心目標也是從眾多資訊中選擇出對當前任務目標更關鍵的資訊。

在神經網路模型處理大量輸入資訊的過程中，利用注意力機制，可以做到只選擇一些關鍵的輸入資訊進行處理，來提高神經網路的效率。如上在計算機視覺和自然語言處理中。

從數學公式上和**實現上attention可以理解為加權求和。假設?=[?_1,?_2,…,?_?]表示n個輸入資訊，為了節省計算資源，不需要讓神經網路處理這n個輸入資訊，而只需要從x中選擇一些與任務相關的資訊輸入進行計算。注意力機制在具體實現上有很多種型別，例如：self-attention、soft attention、hard attention等。

接下來的例子以soft attention為例子來闡述。 soft attention是指在選擇資訊的時候，不是從n個資訊中只選擇1個，而是計算n個輸入資訊的加權平均，再輸入到神經網路中計算。把輸入資訊向量x看做是乙個資訊儲存器，現在給定乙個查詢向量q，用來查詢並選擇x中的某些資訊，那麼就需要知道被選擇資訊的索引位置。定義乙個注意力變數?∈[1, ?]來表示被選擇資訊的索引位置，即?=?來表示選擇了第i個輸入資訊，然後計算在給定了q和x的情況下，選擇第i個輸入資訊的概率?_?：

注意力分布??表示在給定查詢?時，輸入資訊向量?中第?個資訊與查詢?的相關程度。採用「軟性」資訊選擇機制給出查詢所得的結果，就是用加權平均的方式對輸入資訊進行彙總，得到attention值：

目前attention機制在深度學習領域裡得到了廣泛的使用。

BERT背景介紹 Attention機制

bert簡介 Bert基礎介紹

BERT簡要介紹

Bert演算法語言模型 BERT詳細介紹

BERT背景介紹 Attention機制

bert簡介 Bert基礎介紹

BERT簡要介紹

Bert演算法 語言模型 BERT詳細介紹

相關推薦

Bert演算法語言模型 BERT詳細介紹