Attention歷史梳理

這篇寫的簡直太好了，不愧是阿里啊！

又根據key==value這樣，分為普通模式和鍵值對模式：

也就是計算相似度的方式不同，可以通過點乘/cos相似度/mlp實現

也就是求權重的方式不同，分為global/local attention ，local 是部分輸入向量才能進入這個池子。有local-m 和 local-p兩個方案。

但好像local增益不大。

soft/hard att。

hard attention 是乙個隨機取樣，取樣集合是輸入向量的集合，取樣的概率分布是alignment function 產出的 attention weight。因此，hard attention 的輸出是某乙個特定的輸入向量。

soft attention 是乙個帶權求和的過程，求和集合是輸入向量的集合，對應權重是 alignment function 產出的 attention weight。

硬注意力機制的缺點：

rnn 由於遞迴的本質，導致無法並行。cnn 在 nlp 中扮演了n-gram 的 detector角色，在層內可以並行。

它的 perceptive field 是整個句子，所以任意兩個位置建立關聯是常數時間內的。

沒有了遞迴的限制，就像 cnn 一樣可以在每一層內實現並行。

self-attention 借鑑cnn中 multi-kernel 的思想，進一步進化成為 multi-head attention。

關於transform中的上面這個圖我看不太懂，是什麼意思呢？就maskeddecoder這個部分看不懂。

是因為它懂得了"context is everything"。

語言模型（language model）是整個 nlp 領域的基礎，語言模型的精準程度基本上直接掌握所有 nlp 任務效果的命脈。而 context 又掌握著語言模型的命脈，語義不孤立，在特定 context 下展示特定的一面模型如果可以學習到這些知識，就可以達到見人說人話，見鬼說鬼話的理想狀態。

在語義表達上能把 context 用好的都是成功的典範:

attention 背後本質的思想就是：在不同的 context 下，focusing 不同的資訊。

Attention歷史梳理

梳理下中文編碼的歷史

機器學習 Attention

Attention機制全解

Attention歷史梳理

梳理下中文編碼的歷史

機器學習 Attention

Attention機制全解

相關推薦