計算機視覺 self attention機制

先來看乙個翻譯的例子「i arrived at the bank after crossing the river」這裡面的bank指的是銀行還是河岸呢，這就需要我們聯絡上下文，當我們看到river之後就應該知道這裡bank很大概率指的是河岸。在rnn中我們就需要一步步的順序處理從bank到river的所有詞語，而當它們相距較遠時rnn的效果常常較差，且由於其順序性處理效率也較低。self-attention則利用了attention機制，計算每個單詞與其他所有單詞之間的關聯，在這句話裡，當翻譯bank一詞時，river一詞就有較高的attention score。

其基本結構如下

顯然，當前單詞與其自身的attention score一般最大，其他單詞根據與當前單詞重要程度有相應的score。然後我們在用這些attention score與value vector相乘，得到加權的向量。

如果將輸入的所有向量合併為矩陣形式，則所有query, key, value向量也可以合併為矩陣形式表示

我們可以發現卷積本身就有attention的效果，比如，在分類網路中高層的feature map所啟用的pixel恰好集中在與分類任務相關的區域。

然而cnn中的 convolution單元每次只關注鄰域 kernel size 的區域，就算後期感受野越來越大，終究還是區域性區域的運算，這樣就忽略了全域性其他片區（比如很遠的畫素）對當前區域的貢獻。

由此在cv領域，一篇關於attention研究非常重要的文章《non-local neural networks》在捕捉長距離特徵之間依賴關係的基礎上提出了一種非區域性資訊統計的注意力機制——self attention。

參考：

計算機視覺 self attention機制

（計算機視覺）計算機視覺基礎

計算機視覺

計算機視覺

相關推薦