Attention機制結構詳解

bert（bidirectional encoder representations from transformers）使用了transformer為主要框架，transformer能夠更徹底的捕捉語句中的雙向關係。transformer框架之所以能夠比傳統的cnn、rnn甚至是lstm更優秀，是因為整個網路架構完全是由attention機制組成。因此，想要了解bert需要從認識attention機制開始。

在attention模型中，當我們翻譯乙個詞語時，會去源句子中找相對應的幾個詞語，並結合之前已經翻譯的部分做出適當的翻譯，例如在翻譯「knowledge」的時候會關注「知識」，而不僅僅是原模型輸出的定長向量。

這裡關鍵的操作是計算encoder與decoder state之間的關聯性的權重，得到attention分布，從而對於當前輸出位置得到比較重要的輸入位置的權重，在**輸出時相應的會佔較大的比重。

Attention機制結構詳解

Attention機制全解

Attention機制全解

Attention機制的文章總結

Attention機制結構詳解

Attention機制全解

Attention機制全解

Attention機制的文章總結

相關推薦