關於資訊抽取的整理總結 上

2021-08-02 21:31:16 字數 1462 閱讀 8879

1.1 資訊抽取定義

一般意義上,資訊抽取的定義為:從自然語言文字中抽取指定型別的實體、關係、事件等事實資訊,並形成結構化資料輸出的文字處理技術[1]。

1.2 資訊抽取的任務實體的識別和抽取根據應用的不同可以分為命名實體識別和開放域實體識別

2.1 實體識別

命名實體識別的主要任務是識別出待處理文字中七類命名實體,分別為人名、機構名、地名、時間、日期、貨幣和百分比。

在這七類當中,時間、日期、貨幣、百分比相對而言其構成具有很明顯的規律,識別起來相對容易,但是剩下的三類由於用字靈活,所以識別難度很大。命名實體的內部構成和外部語言環境具有一些特徵,無論何種方法,都在試圖充分發現和利用實體所在的上下文特徵和實體的內部特徵。

考慮到每一類命名實體都具有不同的特徵,不同類別的實體適合用不同的識別模型[2]:

- 人名:用基於字的模型描述其內部構成

- 地名和機構名:用基於詞的模型描述

同時利用memm、hmm、crf等序列標註工具計算特徵權重。

2.2 開放域實體抽取

相對於實體識別而言,該領域目前更具有研究前景和價值。開放域實體抽取的特點在於不限定實體類別,不限定目標文字。

基本任務

給定某一類別的實體例項,從網頁中抽取同一類別其他實體例項

例如給定《中國,美國,俄羅斯》(稱為「種子」),找出其他國家《德國,英國,法國……>

2.3 開放域實體抽取的主要方法3.1 實體消岐定義

命名實體的歧義指的是乙個實體指稱項可對應到多個真實世界實體,確定乙個實體指稱項所指向的真實世界實體,這就是命名實體消歧。

針對方法的不同可以分為基於聚類的實體消岐和基於實體鏈結的實體消岐。

3.2 基於聚類的實體消岐

基本思路為同一指稱項具有近似的上下文,利用聚類演算法進行消歧。其核心問題在於選取何種特徵對於指稱項進行表示,根據特徵的不同,共有如下幾種方法

基於聚類的方法主要集中在語義表示上,但也有挑戰,首先是消岐目標難以確定,第二是缺乏實體的顯式表示。

3.3 基於鏈結的實體消岐

3.3.1 候選實體的發現

主要有兩種方法:

3.3.2 候選實體鏈結

基本方法:計算實體指稱項和候選實體的相似度,選擇相似度最大的候選實體.

3.3.2.1 單一實體鏈結

3.3.2.2 協同實體鏈結

該方法主要針對同一篇文件中實體之間具有語義相關性,因此利用pairwise優化策略。 1c

2|so

|∑s≠

s′∈s

0r(y

s,ys

′)+1

|so|

∑s∈s

oωtf

s(ys

) 目前實體鏈結方法主要是如何更有效挖掘實體指稱項資訊,如何更準確地計算實體指稱項和實體概念之間的相似度。難點在於未登入實體的處理。

總結整理 產品的資訊架構

產品的資訊架構,說的直白些,就是乙個產品的資訊是如何組織的,即資訊的組織方式。從方向上來說主要是兩個 橫向和縱向,橫向上的原則 高內聚低耦合,就是把內容相近的資訊放在乙個模組內,遠一些的則分開放在不同模組。縱向上的原則 重要的提高權重,放在前面層級,次要的降低權重,放在靠後的層級。乙個產品存在的目的...

關於oracle synonym 的總結整理

在使用者codprov使用者下,建立了兩個同義詞,乙個是public的,乙個是本使用者下的,但是同義詞的名稱一樣,codprov使用者有查詢cod使用者下所有物件的許可權。create or replace public synonym tb ofr cust rep detail for cod....

2 配置資訊的抽取

我們先來看我們寫的 和檔案 指定用redis來儲存session資訊 session redis strictredis host redis host,port redis post 指定那個redis來儲存session資訊 session use signer true 設定是否使用秘鑰 se...