文獻閱讀筆記（五）

2019 journal of web semantics_linking and disambiguating entities across heterogeneous rdf graphs筆記整理

一、 **整理思路流程

cbd（concise bounded descriptions ）簡潔有界描述

面對資料相關引數（如選擇哪乙個屬性作為標記）時減少人工識別的困難

根據大量語義例項和現實例項的對資料異質性的分類

提出了基於cbd的例項分析框架，用於在匹配階段對資料**進行表示和比較

一種新策略，用於自動識別移除兩個資料集之間的「問題」屬性（不適合作為標籤的屬性）

對於大量開源基準的多方面經過檢驗的衡量標準（基準的衡量標準）

有簡易互動介面的本文提出的系統的開源例項

首先提出了資料異質性的分類:根據先前的研究，本文專注於兩個資料集之間對於某一資訊描述的不同從而發現形式上（屬性還是類別）值上和結構上的異質性。本文尤其關注且使用高度異質化的現實經典**資料集和大量im@oaei產生的合成基準。

1) 資料值維度的異質性：術語異質性（由於詞語的同義性、不同詞語的多義性產生，也包括少量的單詞拼寫錯誤）、語言異質性（不同語言互相翻譯造成的）、資料屬性和物件屬性異質性（如同一條資訊可以被txt表示也可以是用url表示）

3) 邏輯維度的異質性：分類異質性、屬性異質性

4) 資料質量維度的異質性:資料型別異質性、資料集一致性

2) rdf資料鍵值:已知兩個**s1,s2，以及他們的謂語（屬性）。則鍵值就是所有s1,s2的屬性值相同的屬性k =

cbd(r)的前繼：以r為o的三元組

cbd(r)的後繼：以r為s的三元組

↑ cbd(r)：包括cbd(r)以及其所有的前繼

↓ cbd(r)：包括cbd(r)以及其所有的後繼

↕ cbd(r)：包括cbd(r)以及其所有的前繼、後繼

cbd∗(r)：包括上述所有在內的三元組

例項分析：rdf圖g的文字成分是l(g),則例項文字f(r)是所有l(g)中屬於cbd*的集合

legato的構成模組：

2) 主要匹配模組：包括基於cbd的例項分析、對映到向量的例項分析（將例項對映到向量空間並且對向量進行限制和賦予權重）、基於向量的例項匹配

確定資料集的異質性

1) 資料值異質性：將例項視為單詞包並對映到向量中，計算向量的相似度

使用的資料集：doremus（包括9-ht,4-ht(heterogeneities)和fp-trap( false positives trap)）、合成資料集（spimbench 2015、spimbench 2016、spimbench 2017）

情境設定

1) 衡量自動識別生成鏈結的問題屬性（用於評估自動屬性過濾模組的效率）

2) 例項分析選擇的影響

3) 鍵值的使用對於例項消歧的影響

4) legato與其他系統的總體的比較

5) legato與其他鏈結自動生成方法的比較

使用指標：f-m、p 、r

屬性過濾效率：考慮所有屬性然後移除問題屬性，在doremus資料集評估。結果發現，使用自動屬性過濾的方法在ht、9-ht資料集中的表現較好

例項分析效率：考慮將不同的例項分析方面運用到legato中，使用資料集oaei2017。結果發現考慮↕ cbd分析獲得更高的f-m分數

後續過程的效率：主要考慮例項消歧和鏈結合併模組，使用doremus2017資料集。考慮候選集中鏈結在確定集中的比例、刪除或是新增的鏈結的比例。結果發現後續程式在高度相似的資料集中極為重要。

總體效率：使用legato的全自動版本，與im@oaei2015、2016、2017的參賽工具進行比較。結果發現legato在資料集中包含實體維度的異質性時表現較好

未來專注於資料集之間的資訊互補性，即解決實體被互補的屬性所描述且存在於不同rdf資料集之中導致缺少比較資訊的問題

二、 **創新點

提出一種新的自動識別移除兩個資料集之間的「問題」屬性的策略、可以自動發現rdf圖之間鏈結的框架legato

三、 **中使用的技術和方法

im@oaei方法

rdf自動鏈結工具eagle等

legato框架

四、建議閱讀參考文獻

[48]、 [51]、

文獻閱讀筆記（五）

文獻閱讀筆記 All about VLAD

文獻閱讀筆記（三）

文獻閱讀筆記（一）

文獻閱讀筆記（五）

文獻閱讀筆記 All about VLAD

文獻閱讀筆記（三）

文獻閱讀筆記（一）

相關推薦