文獻閱讀筆記(三)

2022-05-14 17:35:19 字數 1245 閱讀 3781

2015 information fusion_faceted fusion of

rdf data筆記整理

一、   **整理思路流程

距離匹配的rdf融合演算法

基於內聯的rdf融合演算法

基於規則限制的rdf融合演算法

rdf資料碎片化:特定主題的rdf資料分散在眾多不同的資料集中,每乙個資料集中的rdf資料僅包含主題的某乙個方面。

將分散的rdf資料根據不同的方面整合到同一主題中

從rdf搜尋引擎返回的結果中構造trg(特定主題的rdf圖)然後使用rdf分割演算法發現一系列方面。

使用rdf分割演算法發現一系列方面。

對於trg的分析:在trg中,節點是三元組的s或者o,邊則是對應三元組的p,一條邊及兩端頂點構成一條三元組。而在trg中邊被分為兩種型別,一種反映了s與o的關係,另一種則反映了兩個s之間的關係。trg圖可以僅考慮s之間的邊而被分割為結構圖。

關於使用的資料集:通過從網路爬取資料獲得六個計算機領域主題的資料集,首先人工標註出各個主題的方面,用於之後的方法對比

關於獲得的trg圖:發現每乙個節點的平均的度是2到3.5,98%的節點是孤立的;此外兩個相連線的頂點大部分(96%)都指向同乙個方面。此外根據jaccard相似度計算得到兩節點相似度分數越高越可能指向同乙個節點(由此可以設定乙個閾值)。

方面發現演算法:將rdf圖分割為k個不相交的子圖,然後根據相鄰節點同質性和相似節點同質性,將trg分割為結構圖和資料圖;資料圖根據相似度計算出一系列的方面稱為資料方面;在結構圖中如果一條邊鏈結兩個子圖,且兩個頂點分屬不同方面,則可以將這兩個方面合併。

rdf方面發現演算法具體過程見筆記本

關於人工標註:先給出標註規則,然後兩個人獨立標註同乙個主題,若兩人出現標註衝突則提交給第三人標註並作為最終標註結果。

一致性評估:人工標註的方面集和演算法發現的方面集進行對比,對比指標使用nmi

方面發現評估:使用精確度、召回率、f1指標進行評估與之前提到的三種方法進行對比。同樣在演算法標註和人工標註之間進行評估

本文提出的ff方法較前文提到的三種方法更為有效(考慮了trg的拓撲屬性,並且同時考慮了相似度以及拓撲屬性)

在f1、精確度、召回率這三個指標中,對六個主題的方面提取融合,ff均優於前文的三種方法。

將ff與實體分辨整合

將ff整合擴充套件到其他領域

二、   **創新點

提出了trg的方面發現演算法

發現了trg的相鄰節點同質性和相似節點同質性這兩個拓撲屬性

ff演算法同時考慮了這兩條屬性

[12]

文獻閱讀筆記 All about VLAD

是牛津視覺組2013年發表在cvpr上的一篇文章。這篇文章所做的工作包括3部分。1 詞典自適應 假定由乙個資料集聚類得到乙個詞典,當前有乙個新的資料集。詞典自適應是如何利用已有的詞典,描述新的資料集。本文的詞典自適應目的是根據新的資料集的sift特徵更新已有的詞典,包括兩個步驟。1 為新資料集的每張...

文獻閱讀筆記(五)

2019 journal of web semantics linking and disambiguating entities across heterogeneous rdf graphs筆記整理 一 整理思路流程 cbd concise bounded descriptions 簡潔有界描述...

文獻閱讀筆記(一)

2012 a similarity oriented rdf graph matching algorithm for ranking linked data筆記整理 一 整理思路流程 pagerank演算法是解決了rdf圖節點與邊的關係的提取問題 關係抽取 從而解決查詢的排序比較問題 基於 對應鄰...