引入知識注意力機制的實體分類

2021-08-18 09:52:37 字數 1630 閱讀 4586

細粒度實體型別分類的神經網路結構

這篇**來自清華大學劉知遠老師,發表於2023年。

關於這篇**還是有許多沒有讀懂的地方,暫時先簡要的說一下**的核心:知識是怎樣被引入注意力神經網路的。

首先貼一下整體的模型:

不難看出,和前兩篇**的模型相比,最大的區別還是右側query vector,也就是將知識庫知識引入注意力機制。

首先我們看**中提到的傳統的注意力機制:

這種注意力機制和前兩篇**沒有什麼不同,輸入是由雙向lstm得到的上文或下文矩陣,構造了乙個雙層神經網路。

我們再對其做乙個公升級:

在這個注意力計算公式中,我們增加了乙個輸入,即實體的向量表示(也就是實體的詞向量的均值),而f()這個函式的選取我則是完全不理解是什麼意思~作者取了x^2,因為其恆正,並且易求導。

但作者並不滿意,對這個公式再進行了公升級,得到了如下公式:

顯而易見,這個公式和上面的公式的區別在於將實體向量的表示由詞向量的均值變為了entity embedding,的確詞向量的均值並不能很好的反應實體的語義,顯然entity embedding是一種更好的引入實體語義的方法。

之後作者提到了在測試集上遇到的問題(可能是因為我不大懂transe模型,不大理解他的意思,按照我的理解說一下,中間可能會有錯誤)

作者指出,這種方法在測試的時候會遇到問題,很多情況下,在測試集中我們會遇到這樣的實體,它們無法匹配已有的實體(向量距離過大),甚至是根本沒有在知識庫中,在這種情況下,我們借用與它相關的實體表示也是很困難的事情,想要通過聯絡的方式找到也比較困難。所以作者決定用整個的文字資訊來對所有實體資訊進行訓練,作者通過公式(10)給出了實體的向量表達形式,並將公式(11)加入到如下的損失函式公式中去:

所以這個地方我就不大能理解。也就是有上述公式transe模型就不再用了?這個訓練是在整個語料庫進行訓練?整個訓練集測試集都包括進去?

另一種理解方式是e是訓練集中的實體,e^是測試集中的相關實體,作者通過transe的模式訓練訓練集中的實體,用e^來訓練測試集中的實體。

繼續往下看這篇**:

為了避免歧義,我們要選取最恰當的那個實體:

對於每乙個e^,檢視其和其他實體的距離,當距離小於乙個規定值並且是最小的時候,我們用這個實體e來代替e^,如果距離大於了規定值,那麼我們只能選擇直接用e^來做相關的運算操作。

引入注意力機制的細粒度實體分類

這篇 來自ucl自然語言處理實驗室,發表於2016年。細粒度實體分類是在構建知識圖譜過程中非常重要的內容,關於實體分類相關的文獻也比較多,也有不少分類方法,但是我們如何在非結構化的文字中確定出乙個我們想要的細粒度實體,並把它分入相應的大類中去呢?舉個例子,掘金勝森林狼,約基奇準三雙助球隊贏下爭八關鍵...

注意力機制

從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...

注意力機制

深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...