關係抽取入門級概覽

因為課題組的需要，過去幾個月一直在學習強化學習和魯棒性演算法。再加上忙於課題組中的一些工作，所以過去兩個月基本沒有什麼時間來寫部落格。最近讀了不少強化學習和魯棒性演算法方面的**，也有一些小的收穫，等有時間再通過部落格分享出來。今天分享的是我近期記錄的關係抽取的筆記，希望對想要入門關係抽取這個任務的朋友們有些幫助。

關係抽取從資訊抽取（亦稱為「文字結構化」）中演化而來。關係抽取一般指從非結構化文字中抽取實體以及實體間的關係。關係抽取的下游任務是：問答系統，聊天機械人等。

關係例項抽取：

輸入：文字，給定的關係；

輸出：實體對。

關係分類：

輸入：文字，實體對，關係列表p；

輸出：關係p_i。

實體關係聯合抽取：

輸入：文字；

輸出：三元組的集合

開放關係抽取：此類任務抽取的是關係的文字描述，這類關係通常未定義。開放關係抽取之後要進行規範化。

評測資料集：

人工構建的資料集：ace 2005， semeval-2010 task 8。質量高，規模小。

基於遠端監督構造的資料集：nyt， kbp。規模大、但噪音多。

遠端監督方法是一種弱監督方法，優點是代價小，規模大；缺點是質量問題。

基於遠端監督的資料集構造過程：

從知識庫中為目標關係識別盡可能多的實體對；

對於每個實體對，利用實體鏈結從大規模文字中抽取提及該實體對的句子集合，並為每個句子標註相應的關係；

包含實體對的句子集合和關係型別標籤構成關係抽取的標註集。相應的句子是訓練資料，關係型別是標籤。

解決遠端監督的噪音問題：

發表於2023年acl的《robust distant supervision relation extraction via deep reinforcement learning》這篇**中的思路是引入強化學習的思想，通過選擇高質量的句子，來不斷地篩選資料集。這種思路是將基於遠端監督的關係分類劃分為兩個子任務：

例項篩選：利用強化學習策略構造乙個例項選擇器，從遠端監督產生的資料中獲取優質樣本。

關係分類：根據選擇的樣本訓練關係分類器。關係分類器同時為例項選擇器提供獎勵。

以及同時期發布的另一篇**《reinforcement learning for relation classification from noisy data》

使用模式來表達關係在文字中提及方式，將模式與語料匹配，來獲取關係例項。這種方法現在用得比較少。

有兩種方法，一種是專家定義模式，俗稱規則法；另一種是自動學習模式。

資料標註->模型構建->模型學習

基於rnn的關係抽取：包括輸入層，雙向迴圈層和池化層，最後借全連線層+softmax層生成關係的概率分布；

基於cnn的關係抽取；

基於注意力機制的關係抽取：為每個句子賦予權重，權重越大表明該句子表達目標關係的程度越高，反之則越可能是雜訊。

關係抽取入門級概覽

入門級演算法

PKI入門級介紹

PKI入門級介紹

關係抽取入門級概覽

入門級演算法

PKI入門級介紹

PKI入門級介紹

相關推薦