讀文獻「大資料可視分析綜述」

2021-09-09 06:02:10 字數 1845 閱讀 6022

大資料具有4v特徵,即:體量巨大(volume)、型別繁多(variety)、時效性高(velocity)以及價值高密度低(value)。

大資料分析的理論和方法研究可以從兩個維度展開:一是從機器或計算機的角度出發,強調機器的計算能力和人工智慧,以各種高效能處理演算法、智慧型搜尋與挖掘演算法等為主要研究內容,例如基於 hadoop 和 mapreduce 框架的大資料處理方法以及各類面向大資料的機器學習和資料探勘方法等,這也是目前大資料分析領域的研究主流;另乙個維度從人作為分析主體和需求主體的角度出發,強調基於人機互動的、符合人的認知規律的分析方法,意圖將人所具備的、機器並不擅長的認知能力融入分析過程中,這一研究分支以大資料可視分析。

未來的十大挑戰主要聚焦於可視分析領域所關注的核心主題:認知、視覺化、人機互動的深度融合。

可視分析是一種通過互動式視覺化介面來輔助使用者對大規模複雜資料集進行分析推理的科學與技術。

大資料可視分析是指在大資料自動分析挖掘方法的同時,利用支援資訊視覺化的使用者介面以及支援分析過程的人機互動方式與技術,有效融合計算機的計算能力和人的認知能力,以獲得對於大規模複雜資料集的洞察力(insight).

根據資訊的特徵把資訊視覺化技術分為一維資訊(1-dimensional)、二維資訊(2dimensional)、三維資訊(3-dimensional)、多維資訊(multidimensional)、層次資訊(tree)、網路資訊(network)、時序資訊(temporal)視覺化。

文字視覺化:

經典的基於節點和邊的視覺化,是圖視覺化的主要形式,空間填充法也是常採用的視覺化方法,因此面臨大資料中的圖,需要對這些方法進行改進,例如計算並行化、圖聚簇簡化視覺化、多尺度互動等。

圖簡化(graph simplification)方法是處理此類大規模圖視覺化的主要手段: 一類簡化是對邊進行聚集處理,例如基於邊**(edge bundling)的方法。另一類簡化是通過層次聚類與多尺度互動,將大規模圖轉化為層次化樹結構,並通過多尺度互動來對不同層次的圖進行視覺化.。動態網路視覺化的關鍵是如何將時間屬性與圖進行融合,基本的方法是引入時間軸。

時空資料視覺化:

時空資料是指帶有地理位置與時間標籤的資料,大資料環境下時空資料的高維性、實時性等特點,也是時空資料視覺化的重點.。流式地圖 flow map是一種典型的方法,將時間事件流與地圖進行融合,為了突破二維平面的侷限性,另一類主要方法稱為時空立方體(space-time cube),以三維方式對時間、空間及事件直觀展現出來。

多維資料視覺化:

多維資料指的是具有多個維度屬性的資料變數,多維視覺化的基本方法,包括基於幾何圖形、基於圖示、基於畫素、基於層次結構、基於圖結構以及混合方法.其中,基於幾何圖形的多維視覺化方法是近年來主要的研究方向.大資料背景下,除了資料項規模擴張帶來的挑戰,高維所引起的問題也是研究的重點。

散點圖(scatter plot)是最為常用的多維視覺化方法,三維空間,通過可旋轉的 scatter plot 方塊(dice)擴充套件了可對映維度的數目,==投影(projection)==是能夠同時展示多維的視覺化方法之一,==平行座標(parallel coordinates)==是研究和應用最為廣泛的一種多維視覺化技術,平行座標散點圖 pcp(parallel coordinate plots)。

資訊視覺化中的人機互動技術主要可概括為5 類:動態過濾技術(dynamic queries)與動態過濾使用者介面、整體+詳細技術(overview+detail)與 overview+detail 使用者介面、平移+縮放技術(panning+zooming)與可縮放使用者介面(zui)、焦點+上下文技術(focus+context)與 focus+ context 使用者介面、多檢視關聯協調技術(multiple coordinated views)與關聯多檢視使用者介面。

2023年 醫療大資料視覺化研究綜述()

資訊的安全性是至關重要的。從眾多的視覺化的圖形化表示方法中,對其分析,找出共性,提出一種規範的 抽象層次更高的醫療大資料視覺化方法。資料規模不斷增大,資訊越來越複雜 不僅是形式,還有資料間的關係 解決醫療大資料數位化 碎片化等實際的問題很重要。數位化 搜狗百科 解釋一 數位化就是將許多複雜多變的資訊...

大資料比賽 綜述

雖然只參與了幾個小型的資料比賽,成績也十分慘淡,但還是有一些小小收穫記錄下來以便查閱。1 比賽流程 問題分析 樣本處理 特徵抽取 模型選擇 實現 調參測試 提交 當然,與軟體工程相同,比賽的過程也是迭代進行的,每次提交之後可能就要重新走一遍流程以發現改進點。以目前淺薄的經驗來看,最重要的步驟是特徵抽...

大資料儲存綜述

san 金融電信級別,高成本的儲存方式,涉及到光纖和各類高階裝置,可靠性和效能都很高,除了貴和運維成本高,基本都是好處。檔案儲存 nas,網路儲存,用於多主機共享資料。物件儲存 跟自己開發的應用程式打交道,如網盤。分布式鍵值系統 分布式鍵值系統用於儲存關係簡單的半結構化資料。典型的分布式鍵值系統有a...