注意力模型(GAT

2021-10-14 18:58:26 字數 1278 閱讀 8170

graph資料結構的兩種特徵:

當我們提到graph或者網路的時候,通常是包含頂點和邊的關係,那麼我們的研究目標就聚焦在頂點之上。而除了結構之外,每個頂點還有著自己的特徵,因此我們圖上的深度學習,無外乎就是希望學習上面兩種特徵。

gcn的侷限性:

gcn是處理transductive任務的利器,這也導致了其有著較為致命的兩大侷限性:

首先gcn無法完成inductive任務,也即它無法完成動態圖的問題。

其次,gcn無法處理有向圖,它不容易實現分配不同的學習權重給不同的鄰域。

接下來說一下gat:

2023年的gat,說明白點就是對於每個頂點都計算其與鄰域節點的注意力係數,通過注意力係數來聚合節點的特徵,然而此處注意力係數說白了其實是區域性圖注意力,還有一種注意力係數是全域性注意力係數,其具體思路就是對每乙個節點計算其與其它所有節點的注意力係數。

全域性注意力係數的優點很明顯,它可以完全不依賴於圖的結構資訊,對於處理inductive任務無壓力,但是其缺點也很明顯,其面臨著高昂的計算代價,並且圖結構資訊對於整個graph是非常重要的,其可能面臨著較差的效果。

多頭注意力的提出更加加固了注意力這個理論成果!

深入理解gat:

1、與gcn的聯絡與區別

我們可以發現就本質而言,gcn和gat都是將鄰居節點的特徵聚合到中心節點上,其實就是一種聚合運算。不同的是gcn用的是拉普拉斯矩陣,而gat用的是注意力係數,在一定程度上來說,gat會更強,因為gat很好的將頂點的特徵之間的相關性融入到了模型之中。

2、為什麼gat適用於有向圖

gat的運算是逐頂點的運算,每次運算都需要遍歷圖上的所有節點,因此擺脫了拉普拉斯矩陣的束縛。

3、為什麼gat適用於inductive任務

gat中重要的學習引數是w和a(),這兩個引數僅與頂點的特徵有關,與圖結構無關,因此改變圖的結構對gat的影響不大,只需改變鄰域,重新計算即可。

與此相反的是,gcn是一種全圖計算,一次計算就更新全圖的節點特徵,學習的引數很大程度上和圖結構是相關的。

總結一下:

gcn本質上是譜域卷積,一次處理全部頂點,所以用到了包含圖結構的拉普拉斯矩陣,但這也限制了其無法完成inductive任務;而gat和graphsage等屬於空域卷積,逐點處理,雖然在計算過程中捨棄了整體的圖結構,但這也使得其可以為完成inductive任務。

動手實現 Bahdanau 注意力模型

前一篇我們學習了 seq2seq 模型,從它的模型結構中我們可以看到存在兩個瓶頸 例如,當我們用 seq2seq 翻譯一句話時,它的 encoder 需要將原始句子中的主語,謂語,賓語,以及主謂賓之間的關係等資訊都壓縮到乙個固定長度的上下文向量中,這個向量的長度通常只是 128 或者 256,如果輸...

注意力漂移

在學習李笑來的一本講自學的新書時,我學習到乙個概念 注意力漂移,這個概念很好的概況了自己有時候在生活工作中的一種狀態。如果你對上面的場景特別熟悉,那麼需要自己注意了,如果上面的場景經常在你的生活工作 現,你可能並不是乙個高效的工作者。在上面的例子中,我發現時間過去了,自己想做的工作卻幾乎沒有進展,問...

注意力機制

從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...