事件抽取的簡單方法

2021-10-04 17:33:32 字數 1462 閱讀 7200

再構建event graph, 不免要用到event extraction的方法,這裡引用了一篇別人的總結作為參考學習

關係抽取

定義:自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取(兩個實體)和多元關係抽取(三個及以上實體)。

通過關注兩個實體間的語義關係,可以得到(arg1, relation, arg2)三元組,其中arg1和arg2表示兩個實體,relation表示實體間的語義關係。

根據處理資料來源的不同,關係抽取可以分為以下三種:

根據抽取文字的範圍不同,關係抽取可以分為以下兩種:

根據所抽取領域的劃分,關係抽取又可以分為以下兩種:

限定域關係抽取方法:

基於機器學習的關係抽取方法:將關係抽取看成是乙個分類問題

其中基於機器學習的關係抽取方法又可分為 有監督 和 弱監督。

有監督的關係抽取方法:

弱監督的關係抽取方法:不需要人工標註大量資料。

距離監督:用開放知識圖譜自動標註訓練樣本,不需要人工逐一標註,屬弱監督關係抽取的一種。

開放域關係抽取方法:

不需要預先定義關係類別,使用實體對上下文中的一些詞語來描述實體之間的關係。

總結:限定域關係抽取是目前研究的主流方向。

傳統的基於模板的關係抽取方法可擴充套件性差,基於機器學習的關係抽取方法是目前研究的熱點。

基於有監督學習的關係抽取需要人工標註大量訓練資料,耗時費力,基於弱監督學習的關係抽取得到了越來越多的關注。

事件抽取

定義:從描述事件資訊的文字中抽取出使用者感興趣的事件並以結構化的形式呈現出來。

步驟:首先識別出事件及其型別,其次要識別出事件所涉及的元素(一般是實體),最後需要確定每個元素在事件中所扮演的角色。

限定域事件抽取:在進行抽取之前,預先定義好目標事件的型別及每種型別的具體結構(包含哪些具體的事件元素),通常會給出一定數量的標註資料。

限定域事件抽取方法:

基於機器學習的方法

弱監督事件抽取方法:不需要人工大量標註樣本,但需要給出具有規範語義標籤(事件類別、角色名稱等)的標註訓練資料

基於distant supervison的事件抽取:完全自動生成事件標註樣本,利用結構化的事件知識庫直接在非結構化文字中回標訓練樣本

開放域事件抽取:在進行事件識別之前,可能的事件型別以及事件的結構都是未知的,因此該任務通常沒有標註資料,主要基於無監督的方法和分布假設理論。

分布假設理論:如果候選事件觸發詞或者候選事件元素具有相似的語境,那麼這些候選事件觸發詞傾向於觸發相同型別的事件,相應的候選事件元素傾向於扮演相同的事件元素。

開放域事件抽取方法:

事件關係抽取,以事件為基本語義單元,實現事件邏輯關係的深層檢測和抽取,包括:

總結:組織和構建同時包含實體、實體關係、事件、事件關係的事件知識圖譜得到了越來越多的關注。

python unittest簡單方法

下面一步步的展示如何使用unittest來測試。1 匯入unitttest模組 import unittest2 定義乙個被測試函式 def add a,b return a b3 建立乙個unittest.testcase子類 class demotest unittest.testcase pa...

行業分析的簡單方法

在本本上沉寂了一段時間的內容,今天還是把它拾倒出來,免得就這樣日後不見在故紙堆中了。這是乙個講座的記錄,演講人就是那些在4大或美國華爾街的很多華人諮詢分析師 偏重數理和模型的那類 的老師,所以記得還很認真。上來就是教育我們行業分析是多重要,在美國諮詢業,行業分析師收入是最高的,百萬年薪 利誘 言規正...

zen cart去掉zenid的簡單方法

看到zencart站的url後面多了乙個zenid 是不是很煩人啊。其實很簡單 方法1,開啟includes functions html output.php檔案,第乙個函式定義 function zen href link page parameters connection nonssl ad...