實體虛擬文件構建之V doc演算法

2021-09-24 10:46:25 字數 600 閱讀 3520

關於v-doc演算法

基本思想:將實體表示成虛擬文件,通過向量空間的方式完成虛擬文件之間的匹配,從而實現匹配,可以充分利用鄰接節點的資訊

虛擬文件:基於本體文字檔案,將本體看成由三元組組成的rdf圖結構,提取本體中各個實體的描述資訊,提取的方法是為本體中的每乙個實體構建乙個說明文件。

1) 構建虛擬文字:首先進行實體描述,假設e是本體中的乙個實體,對e的描述有其有關的名字,標籤,注釋,和其他自然語言。其描述如下:

其中,權重值由領域專家確定或者經驗值

e的虛擬文件定義如下所示

sn(e)表示實體e的子概念集合,即rdf三元組中e為主體;on(e)表示實體e的父概念集合,即rdf三元組中e為客體,γ為由領域專家確定或者經驗值

2) 計算虛擬文件之間的相似度:首先對文件進行預處理,向量表示兩個待匹配的虛擬文件

將實體對齊問題轉換成向量相似度度量問題

實體對齊之bert度量虛擬文件的相似度

基於bert度量實體之間的相似度 基本思想 將實體的對齊問題轉換成文字之間的相似度度量問題 準備工作 bert的預訓練模型 google提供了中文的預訓練模型 實體相似度的標記文字 a bert的預訓練模型 模型的輸入 每個單詞有三個embedding,把單詞對應的三個embedding疊加 1 t...

Linux之構建Apache虛擬主機

環境 centos 6.5 ip 192 168 43.226 1.建立訪問檔案 www web1 index1.html i m 81port.www web2 index2.html i m 82port.新增監聽埠 line 136 listen 81 listen 82 2.構建虛擬埠檔案 ...

v4l2驅動文件之 streaming IO

v4l2驅動編寫篇第六b 流輸入輸出 使用read 和write 方法,每一幀都要通過i o操作在使用者和核心空間之間拷貝資料。然而,當使用流輸入輸出的方式時,這種情況就不會發生。替代的方案是使用者與核心空間之間交換緩衝區的指標,這些緩衝區將被對映到應用的位址空間,這也就使零幀複製數成為可能。有兩種...