注意力模型（GAT

graph資料結構的兩種特徵：

當我們提到graph或者網路的時候，通常是包含頂點和邊的關係，那麼我們的研究目標就聚焦在頂點之上。而除了結構之外，每個頂點還有著自己的特徵，因此我們圖上的深度學習，無外乎就是希望學習上面兩種特徵。

gcn的侷限性：

gcn是處理transductive任務的利器，這也導致了其有著較為致命的兩大侷限性：

首先gcn無法完成inductive任務，也即它無法完成動態圖的問題。

其次，gcn無法處理有向圖，它不容易實現分配不同的學習權重給不同的鄰域。

接下來說一下gat：

2023年的gat，說明白點就是對於每個頂點都計算其與鄰域節點的注意力係數，通過注意力係數來聚合節點的特徵，然而此處注意力係數說白了其實是區域性圖注意力，還有一種注意力係數是全域性注意力係數，其具體思路就是對每乙個節點計算其與其它所有節點的注意力係數。

全域性注意力係數的優點很明顯，它可以完全不依賴於圖的結構資訊，對於處理inductive任務無壓力，但是其缺點也很明顯，其面臨著高昂的計算代價，並且圖結構資訊對於整個graph是非常重要的，其可能面臨著較差的效果。

多頭注意力的提出更加加固了注意力這個理論成果！

深入理解gat：

1、與gcn的聯絡與區別

我們可以發現就本質而言，gcn和gat都是將鄰居節點的特徵聚合到中心節點上，其實就是一種聚合運算。不同的是gcn用的是拉普拉斯矩陣，而gat用的是注意力係數，在一定程度上來說，gat會更強，因為gat很好的將頂點的特徵之間的相關性融入到了模型之中。

2、為什麼gat適用於有向圖

gat的運算是逐頂點的運算，每次運算都需要遍歷圖上的所有節點，因此擺脫了拉普拉斯矩陣的束縛。

3、為什麼gat適用於inductive任務

gat中重要的學習引數是w和a（），這兩個引數僅與頂點的特徵有關，與圖結構無關，因此改變圖的結構對gat的影響不大，只需改變鄰域，重新計算即可。

與此相反的是，gcn是一種全圖計算，一次計算就更新全圖的節點特徵，學習的引數很大程度上和圖結構是相關的。

總結一下：

gcn本質上是譜域卷積，一次處理全部頂點，所以用到了包含圖結構的拉普拉斯矩陣，但這也限制了其無法完成inductive任務；而gat和graphsage等屬於空域卷積，逐點處理，雖然在計算過程中捨棄了整體的圖結構，但這也使得其可以為完成inductive任務。