實體消岐和實體統一

2021-10-04 13:21:32 字數 1106 閱讀 6459

實體消歧

定義:實體消歧的本質在於乙個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。

簡單實現

首先我們需要準備乙個類似於下面的這種實體庫:

id實體名

實體描述

1001

蘋果美國一家高科技公司,經典的產品有iphone手機

1002

蘋果水果的一種,一般產自於………

…然後當我們拿到text時,比如「今天蘋果發布了新的手機」

我們可以將實體庫中的實體描述,全部轉換為向量,例如:

「美國一家高科技公司,經典的產品有iphone手機」轉換為向量v

1v_1

v1​「水果的一種,一般產自於…」轉換為向量v

2v_2

v2​然後將「今天蘋果發布了新的手機」中「蘋果」的上下文「今天,發布了新的手機」轉換為向量v

tv_t

vt​我們只要將v

tv_t

vt​分別與v

1v_1

v1​和v

2v_2

v2​計算相似度,然後對比sim(v

tv_t

vt​,v

1v_1

v1​)和sim(v

tv_t

vt​,v

2v_2

v2​)

相似度高的,我們則將其看作「蘋果」的真實語義。

注意:如果text過長可以取實體的前10個和後10個組成向量,如果標準庫過長也可以如此處理

實體統一

定義:給定倆個實體,判斷是不是同乙個實體?

實際上是乙個0-1的問題,二分類問題

簡單方法

方法一:基於相似度的方法,給定倆個實體(如果實體較長),倆個實體都是字串,計算相似度(使用編輯距離),利用閾值判斷是否是同乙個實體。

方法二:基於規則的方法,stemming的方法提取原型(提前維護好乙個實體描述庫)

公司原型

stemming規則

動作****

刪除分公司

刪除北京

刪除廣州

刪除

實體消歧(鏈結到實體庫)

disambiguation.py usr bin python3 import pymysql import json import requests from similarityen import similarity deffindcandidates entity 開啟資料庫連線 db p...

實體消歧,實體識別,實體融合,知識融合概述

實體消歧問題是當下比較熱點的研究問題,國內外的大多熟研究從兩個角度解決實體歧義造成的影響,分別是通過尋求更高質量的特徵和引入外部資源輔助消解。在特徵選取方面,何正焱 2 利用 dnn 深度神經網路 方法,提出了一種文件和實體的相似度為框架的消歧模型 姜麗麗 3 提出了一種基於帶權圖結構的框架來實現人...

實體消歧簡介

定義 實體消歧的本質在於乙個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。簡單實現 首先我們需要準備乙個類似於下面的這種實體庫 id實體名 實體描述 1001 蘋果美國一家高科技公司,經典的產品有iphone手機 1002 蘋果水果的一種,一般產自於 然後當我們拿到text時...