2015 information fusion_faceted fusion of
rdf data筆記整理
一、 **整理思路流程
距離匹配的rdf融合演算法
基於內聯的rdf融合演算法
基於規則限制的rdf融合演算法
rdf資料碎片化:特定主題的rdf資料分散在眾多不同的資料集中,每乙個資料集中的rdf資料僅包含主題的某乙個方面。
將分散的rdf資料根據不同的方面整合到同一主題中
從rdf搜尋引擎返回的結果中構造trg(特定主題的rdf圖)然後使用rdf分割演算法發現一系列方面。
使用rdf分割演算法發現一系列方面。
對於trg的分析:在trg中,節點是三元組的s或者o,邊則是對應三元組的p,一條邊及兩端頂點構成一條三元組。而在trg中邊被分為兩種型別,一種反映了s與o的關係,另一種則反映了兩個s之間的關係。trg圖可以僅考慮s之間的邊而被分割為結構圖。
關於使用的資料集:通過從網路爬取資料獲得六個計算機領域主題的資料集,首先人工標註出各個主題的方面,用於之後的方法對比
關於獲得的trg圖:發現每乙個節點的平均的度是2到3.5,98%的節點是孤立的;此外兩個相連線的頂點大部分(96%)都指向同乙個方面。此外根據jaccard相似度計算得到兩節點相似度分數越高越可能指向同乙個節點(由此可以設定乙個閾值)。
方面發現演算法:將rdf圖分割為k個不相交的子圖,然後根據相鄰節點同質性和相似節點同質性,將trg分割為結構圖和資料圖;資料圖根據相似度計算出一系列的方面稱為資料方面;在結構圖中如果一條邊鏈結兩個子圖,且兩個頂點分屬不同方面,則可以將這兩個方面合併。
rdf方面發現演算法具體過程見筆記本
關於人工標註:先給出標註規則,然後兩個人獨立標註同乙個主題,若兩人出現標註衝突則提交給第三人標註並作為最終標註結果。
一致性評估:人工標註的方面集和演算法發現的方面集進行對比,對比指標使用nmi
方面發現評估:使用精確度、召回率、f1指標進行評估與之前提到的三種方法進行對比。同樣在演算法標註和人工標註之間進行評估
本文提出的ff方法較前文提到的三種方法更為有效(考慮了trg的拓撲屬性,並且同時考慮了相似度以及拓撲屬性)
在f1、精確度、召回率這三個指標中,對六個主題的方面提取融合,ff均優於前文的三種方法。
將ff與實體分辨整合
將ff整合擴充套件到其他領域
二、 **創新點
提出了trg的方面發現演算法
發現了trg的相鄰節點同質性和相似節點同質性這兩個拓撲屬性
ff演算法同時考慮了這兩條屬性
[12]
文獻閱讀筆記 All about VLAD
是牛津視覺組2013年發表在cvpr上的一篇文章。這篇文章所做的工作包括3部分。1 詞典自適應 假定由乙個資料集聚類得到乙個詞典,當前有乙個新的資料集。詞典自適應是如何利用已有的詞典,描述新的資料集。本文的詞典自適應目的是根據新的資料集的sift特徵更新已有的詞典,包括兩個步驟。1 為新資料集的每張...
文獻閱讀筆記(五)
2019 journal of web semantics linking and disambiguating entities across heterogeneous rdf graphs筆記整理 一 整理思路流程 cbd concise bounded descriptions 簡潔有界描述...
文獻閱讀筆記(一)
2012 a similarity oriented rdf graph matching algorithm for ranking linked data筆記整理 一 整理思路流程 pagerank演算法是解決了rdf圖節點與邊的關係的提取問題 關係抽取 從而解決查詢的排序比較問題 基於 對應鄰...