引入知識注意力機制的實體分類

細粒度實體型別分類的神經網路結構

這篇**來自清華大學劉知遠老師，發表於2023年。

關於這篇**還是有許多沒有讀懂的地方，暫時先簡要的說一下**的核心：知識是怎樣被引入注意力神經網路的。

首先貼一下整體的模型：

不難看出，和前兩篇**的模型相比，最大的區別還是右側query vector，也就是將知識庫知識引入注意力機制。

首先我們看**中提到的傳統的注意力機制：

這種注意力機制和前兩篇**沒有什麼不同，輸入是由雙向lstm得到的上文或下文矩陣，構造了乙個雙層神經網路。

我們再對其做乙個公升級：

在這個注意力計算公式中，我們增加了乙個輸入，即實體的向量表示（也就是實體的詞向量的均值），而f()這個函式的選取我則是完全不理解是什麼意思~作者取了x^2，因為其恆正，並且易求導。

但作者並不滿意，對這個公式再進行了公升級，得到了如下公式：

顯而易見，這個公式和上面的公式的區別在於將實體向量的表示由詞向量的均值變為了entity embedding，的確詞向量的均值並不能很好的反應實體的語義，顯然entity embedding是一種更好的引入實體語義的方法。

之後作者提到了在測試集上遇到的問題（可能是因為我不大懂transe模型，不大理解他的意思，按照我的理解說一下，中間可能會有錯誤）

作者指出，這種方法在測試的時候會遇到問題，很多情況下，在測試集中我們會遇到這樣的實體，它們無法匹配已有的實體（向量距離過大），甚至是根本沒有在知識庫中，在這種情況下，我們借用與它相關的實體表示也是很困難的事情，想要通過聯絡的方式找到也比較困難。所以作者決定用整個的文字資訊來對所有實體資訊進行訓練，作者通過公式（10）給出了實體的向量表達形式，並將公式（11）加入到如下的損失函式公式中去：

所以這個地方我就不大能理解。也就是有上述公式transe模型就不再用了？這個訓練是在整個語料庫進行訓練?整個訓練集測試集都包括進去？

另一種理解方式是e是訓練集中的實體，e^是測試集中的相關實體，作者通過transe的模式訓練訓練集中的實體，用e^來訓練測試集中的實體。

繼續往下看這篇**：

為了避免歧義，我們要選取最恰當的那個實體：

對於每乙個e^，檢視其和其他實體的距離，當距離小於乙個規定值並且是最小的時候，我們用這個實體e來代替e^，如果距離大於了規定值，那麼我們只能選擇直接用e^來做相關的運算操作。

引入知識注意力機制的實體分類

引入注意力機制的細粒度實體分類

注意力機制

注意力機制

相關推薦