實體關係抽取學習記錄

暑假要開始上手知識圖譜的專案了，所以就把之前的那些學習積累做乙個簡要的梳理，加油，你的所有積累都會在某一天帶給你意想不到的驚喜~~

接下來進入正題

但是有監督學習中人工標註資料十分侷限，並且還要做實體對齊那麼一旦面對巨大的資料量，就顯得工作量巨大繁雜。

遠端監督就成為大家的寵兒。

遠端監督認為知識圖譜中可獲取三元組r（e1,e2),且e1,e2貢獻在句子s中，則s表達了e1,e2間的關係r，標註為訓練正例。基本假設過強，所以就會有大量雜訊的問題。就是在後面的各種**中頻繁出現的，the wrong label problem，其出現的根本原因是：遠端監督假設乙個實體對只對應一種關係，但實際上實體間可以同時具備多種關係，實體間也可能不存在某種關係，而僅僅因為涉及了某個話題才在句中共現。

理解：（1）充分利用整個句子的資訊

（2）解決wrong label problem

（3）增加attention機制提高了cnn的關係抽取效果

（二）rnn+attention

2016acl :attention-based bidirectional long short-term memory networks for relation classiﬁcation

輸入一句話，然後經過embedding得到每個單詞的vector，通過bilstm得到詞彙的向量化表示，根據每個詞彙最終的關係貢獻度大小，用詞彙向量和貢獻度進行attentionde得到結果。

輸入：一句包含有t個詞的句子

embedding：將輸入的句子轉化為詞向量

lstm：雙向進行詞彙特徵的抽取（可以得到past future的特徵融合）

attention:找出每個單詞對最終的關係貢獻度的大小

output：結合所有單詞得到的結果

（四）台灣國立大學 emnlp 2017：deep residual learning forweakly-supervised relation extraction

利用9層的cnn可以顯著提公升遠端監督關係抽取的效能

輸入一句話，含有n個詞彙，包含帶抽取關係的兩個實體

word embedding+posiotion*2-----vector

利用大小為h的滑動視窗提取出詞向量特徵,一維卷積

residual network通過殘差網路避免cnn的梯度消失，提高深度卷積網路的精度，共有m個卷積核得到m個特徵，卷積核大小為h，增加padding使得特徵大小不變—兩層cnn+乙個relu啟用函式

將m個特徵利用最大池化層+全連線層+dropout+softmax進行操作得到結果

理解：這種關係抽取的辦法不需有分段的池化，也沒有使用attention機制，而是可以在深度的cnn上面降低遠端監督的雜訊影響

理解：實體識別和關係分類是相輔相成的，將兩者融合在乙個模型中，讓關係引導實體識別，實體監督關係分類，一起訓練效果更優。與當前的先識別實體對在判斷關係，把實體和關係的識別割裂開來不同，這種方法能很好的識別實體之間的多種關係，或者乙個實體承擔的多種關係。

感覺關係抽取利用深度學習框架是乙個大趨勢啊，但是基於專業領域的資料集抽取的資料好少，不知道有沒有這個方向的同學要一起討論的呀？

實體關係抽取學習記錄

關係抽取學習

實體關係聯合抽取入門資料彙總

實體關係抽取的現狀與未來

實體關係抽取學習記錄

關係抽取學習

實體 關係聯合抽取 入門資料彙總

實體關係抽取的現狀與未來

相關推薦

實體關係聯合抽取入門資料彙總