大資料融合技術 問題與挑戰

2021-08-02 18:55:12 字數 1307 閱讀 8391

本文為《大資料融合研究:問題與挑戰》的總結。

資料的特點:

資料湖:資料整合的物件,即資料與知識的複合體。傳統的關係型資料是先有模式(表)再有資料,而資料湖是先有資料再有模式。

大資料融合存在的問題:

普遍採用3v(海量、高速、型別多樣)特性下的整合技術。關鍵技術:

模式/本體對齊:利用屬性名稱、型別、值的相似性以及屬性之間的鄰接關係來尋找源模式與中介模式的對應關係。所需關鍵技術:

面向結構化資料的的記錄鏈結——從資料集中識別和聚合表示現實世界中同一實體的記錄

結構化與非結構化資料之間的複雜資料實體關聯——核心為表象消歧,即建立結構化與非結構化實體之間的鏈結關係

衝突解決:從所有衝突中甄別正確的值。這些衝突可分為:

關係推演:自動找到關聯資料中的路徑模式和自然語言中的關係詞彙之間的對應關係。關係推演包括以下3種情況:

實體識別過程中產生的錯誤會依次向後續過程傳播,且該錯誤不可恢復

共指識別和衝突解決的結果不能向前反饋

實體識別過程和衝突解決過程可能會產生不一致輸出

實際中這三者相互影響:實體識別為衝突解決和共指識別提供更多的特徵,同時衝突解決和共指識別為實體識別提供已消歧的鏈結資訊輔助聚類。針對該弊病,現在研究熱點為交叉迭代

問題2:共指識別還面臨實體關係的演化帶來的挑戰。已有方法沒有考慮可靠性和更新程度、區域性決策對與之關聯表象的影響,並且直接面向動態資料,演化模型依賴於訓練資料集和演化證據的質量,匹配精度高,但是時間代價在大資料環境下無法承受。

問題3:複雜實體關聯方法在適用範圍、準確率等方面都存在不足,主要有:

非結構化資料一般不顯式包含屬性名,其實體屬性不一定到出現在結構化資料中,結構化資料中實體屬性也不一定能在非結構化資料中找到對應

新實體的發現是一大難點,關鍵在於相似性判斷閾值的確定沒有有效解決辦法

大資料融合面向跨語言融合邁進,該方面研究成果不多

問題1:消歧方法依賴於實際參照資料(資料標註)的可用性,參照資料缺乏領域性和針對性,使得實用性變窄

問題2:資訊的質量直接引發衝突

問題1:關係推理目前只考慮了直接關係和路徑關係的推理,缺乏對關係之間複雜模式的考慮

問題2:演化建模對衝突識別與解決影響很大,雖然現有方法捕獲了實體屬性值的變化,但沒有考慮屬性值變化的複雜模式

大資料技術面臨的三個重要技術問題

大資料技術面臨的三個重要技術問題 大資料一 如何利用資訊科技等手段處理非結構化和半結構化資料 大資料中,結構化資料只佔 15 左右,其餘的 85 都是非結構化的資料,它們大量存在於社交網路 網際網路和電子商務等領域。另一方面,也許有 90 的資料來自開源資料,其餘的被儲存在資料庫中。大資料的不確定性...

技術問題 時空大資料0001 基本知識

一 b 樹 r樹定義 區別及場景 二 空間資料快取技術設計 1 空間資料快取容量 2 空間資料快取穿透 3 快取資料失效 fifo first in first out,先進先出。判斷被儲存的時間,離目前最遠的資料優先被淘汰。lru least recently used,最近最少使用。判斷最近被使...

大資料挑戰與NoSQL資料庫技術 試讀有感

大資料挑戰與nosql資料庫技術 試讀有感 大資料,nosql可以說是網際網路的乙個新時代,對於像我們這樣在it界混的 碼農 來說還是很重要的。廢話不多說,先說書.在我看來書分三種 1.入門級書 2.api式的書 3.深入原理的書 大資料挑戰與nosql資料庫技術這本我個人覺得屬於 1 3 類。不過...