關係抽取學習

**：（ok）

1、手寫規則（hand-written patterns）；

2、監督學習演算法（supervised machine learning）；

4、無監督演算法。

遠端監督：

直接從知識圖譜中，抽取三元組，並從語料集中抽取包含三元組兩個名詞中的任意乙個的句子，對句中的上下文結構學習，並且給句子打分，設定閾值來判斷是否本句屬於當前關係類別。

遠端監督演算法有乙個非常重要的假設：對於乙個已有的知識圖譜（**用的freebase）中的乙個三元組（由一對實體和乙個關係構成），假設外部文件庫（**用的wikipedia）中任何包含這對實體的句子，在一定程度上都反映了這種關係。

基於這個假設，遠端監督演算法可以基於乙個標註好的小型知識圖譜，給外部文件庫中的句子標註關係標籤，相當於做了樣本的自動標註，因此是一種半監督的演算法。

具體來說，在訓練階段，用命名實體識別工具，把訓練語料庫中句子的實體識別出來。如果多個句子包含了兩個特定實體，而且這兩個實體是freebase中的實體對（對應有一種關係），那麼基於遠端監督的假設，認為這些句子都表達了這種關係。於是從這幾個句子中提取文字特徵，拼接成乙個向量，作為這種關係的乙個樣本的特徵向量，用於訓練分類器。

從bag-of-words中抽取文字特徵，作為關係的特徵向量表示。

從多個句子中抽出特徵進行拼接，作為某個樣本（實體對）的特徵向量，有兩個好處：

一是單獨的某個句子可能僅僅包含了這個實體對，並沒有表達freebase中的關係，那麼綜合多個句子的資訊，就可以消除噪音資料的影響。

二是可以從海量無標籤的資料中獲取更豐富的資訊，提高分類器的準確率。

但是就算乙個句子中同時出現了這兩個實體對，也可能表達的不是本關係的意思，那麼就會產生偏差啊，可能是越來越大的偏差。

從句子中抽取如上三種特徵。

遠端監督基於乙個非常強的假設，就是只要freebase的關係對中的實體出現在了句子中，就假定實體關係為當前關係。

2.資料構造過程依賴於 ner 等 nlp 工具，中間過程出錯會造成錯誤傳播問題。針對這些問題，目前主要有四類方法：（1）在構造資料集過程中引入先驗知識作為限制；（2）利用指稱與指稱間關係用圖模型對資料樣例打分，濾除置信度較低的句子；（3）利用多示例學習方法對測試包打標籤；（4）採用 attention 機制對不同置信度的句子賦予不同的權值。

freebase 是乙個由元資料組成的大型合作知識庫。

屬性值型別可以是基本型別，比如：整型、文字等；也可以是另乙個type，比如：所在球隊、父母等，這種情況叫做cvt，compound value type 組合值型別，比如：所在球隊就是乙個cvt，它有自身結構化的屬性，不僅僅只是一種簡單的值。

通過型別及其配置的屬性，可結構化乙個topic，如果topic屬於多個type，則其結構為這些type屬性的集合。如果屬性是基本型別則儲存在該topic本身；若是cvt則作為另乙個topic儲存，通過邊進行關聯。

//聽起來就像乙個個結構化的資料然後通過屬性關聯，這樣就形成了圖。

無需預先定義關係型別，而是直接從開放文字中抽取(s1,p,s2),s為實體，p為動詞。（個人理解）

《開放式文字資訊抽取》

開放式實體關係抽取的目標就是突破封閉的關係型別限定以及訓練語料的約束，從海量的網路文字中抽取實體關係三元組(arg1, pred, arg2)，這裡 arg1 表示實體，arg2 表示實體關係值，通常也為實體， pred 表示關係名稱，通常為動詞、名詞或者名詞短語。

infobox也是結構化資料，

}
|title =可選頂欄的用例
|header1 = }}}}}} |可選頂欄}}
|label2 =專案一
|data2 = }}
|label3 =專案二
|data3 = }}
|label4 =專案三
|data4 = }}
}}

需要看一下那篇引用的文章。

關係抽取學習

實體關係抽取學習記錄

讀書筆記關係抽取和事件抽取

關係抽取入門級概覽

關係抽取學習

實體關係抽取學習記錄

讀書筆記 關係抽取和事件抽取

關係抽取入門級概覽

相關推薦

讀書筆記關係抽取和事件抽取