文獻閱讀筆記（一）

2012 _a similarity-oriented rdf graph matching algorithm for ranking linked data筆記整理

一、 **整理思路流程

pagerank演算法是解決了rdf圖節點與邊的關係的提取問題（關係抽取）從而解決查詢的排序比較問題

基於「對應鄰接頂點也相似」的相似度演算法。

由於先前的方法有如下的缺陷：忽略rdf圖的很多特徵（比如圖的結構）；忽視大部分的節點都被url所標記（可理解為大部分節點的屬性是url）

通過基於語義相似度對rdf圖的相似度進行衡量（由s,p,o三元素的相似度擴充套件到整個語句的相似度再到整個rdf圖的相似度）

創新地提出了反映rdf圖邊與點（主語、賓語和謂語的關係）關係的圖的結構相似度。這種相似度將一條語句的三元素作為乙個整體單元並衡量這個單元在整個rdf圖的重要性（加權）

本文提供的方法主要解決的是查詢匹配問題

**首先提出了相似度的層次：

首先計算標記的相似度（label）：包括標記的字串相似度（string similarity）和單詞相似度（linguistic similarity）；注意針對不同型別的標記（標記是單詞或是url）使用不同的方法。對於單詞型的標記，字串相似度使用levenshtein distance編輯距離演算法計算；單詞相似度使用lin』s similarity演算法計算。對於url型別的標記，將url分為三段host（計算字串相似度，演算法同上），path（計算單詞相似度，演算法同上）, fragment（計算單詞相似度，演算法同上）並分別計算對應的相似度。最終的url相似度是三者算數平均值。

然後計算三元組相似度：

計算結構相似度：基於相似節點對應鄰接節點也相似，通過計算某些語句的上文（以該語句的s作為o的語句）和下文（以該語句的o作為s的語句）來計算結構相似度（這一相似度的計算主要針對的是乙個rdf圖中的語句與另乙個rdf圖的語句的相似度）

計算上文集的公式：先計算語句q的上文集中元素與語句p的上文集每乙個語句的三元組相似度（每乙個q的上文集元素都有一次迴圈），然後每次迴圈選取其中相似度最大的語句對，最終將選中的語句對相似度求和然後取均值（q的上文集有d個元素，p的上文集有k個元素）

計算下文集相似度的公式類似

最終整體的結果相似的是

rdf圖相似度：

deg指的是某一語句的上文集和下文集元素數。

使用資料集：jena模組自帶的測試資料和wordnet

版本資訊：jena2.6;wordnet2.1;jdk1.6

使用5個rdf圖作為測試資料，兩兩組合計算相似度，並且設定6組不同的引數進行實驗。然後根據rdf圖的相似度使用例項進行查詢操作輸出結果。

對相關的相似度衡量進行進一步的改進整合

二、 **創新點

首先新考慮了rdf圖的結構相似度，由此避免了之前方法的一些缺陷，提高了最終查詢結果的準確度（提高了基於相似度的匹配演算法的準確率）

三、 **中使用的技術和方法

jena的使用

圖資料庫的操作查詢

文獻閱讀筆記（一）

文獻閱讀筆記 All about VLAD

文獻閱讀筆記（五）

文獻閱讀筆記（三）

文獻閱讀筆記（一）

文獻閱讀筆記 All about VLAD

文獻閱讀筆記（五）

文獻閱讀筆記（三）

相關推薦