大資料視覺化課程筆記 1

2021-10-09 19:24:44 字數 1774 閱讀 8702

模式: 指資料中的規律

關係: 指資料之間的相關性,在統計學中,通常代表關聯性和因果性

資料的關係分為三類: 資料間的比較, 資料的構成, 資料的分布或聯絡

異常: 指有問題的資料

異常的資料不一定是錯誤的資料, 有些事裝置出錯或人為輸入錯誤,有些可能是正確的資料

難題:

(1) 大量資料不能有效利用

(2) 資料展示模式繁雜晦澀, 無法快速甄別有效資訊

資料視覺化在大資料分析中的作用:

(1) 動作更快

(2) 以建設性方式提供結果

(3) 理解資料之間的聯絡

層次資料視覺化中,層次資料表達各個個體之間的層次關係. 樹圖是層次資料視覺化的典型案例, 樹圖是對現實世界事物關係的抽象, 其資料本身具有層次結構的資訊.

網路結構資料視覺化中, 網路資料不具備層次結構, 關係更加複雜和自由.

非結構化資料視覺化通常將非結構化資料轉化為結構化資料再進行視覺化顯示.

圖表萌芽 (遠古-2023年)

物理測量 (1600-2023年)

圖形符號 (1700-2023年)

資料圖形 (1800-2023年)

現代啟蒙 (1900-2023年)

多維資訊的可視編碼 (1946-2023年)

jacques bertin出版了semiology of graphics一書,確定了構成圖形的基本要素,描述了一種關於圖形設計的框架. 這套理論奠定了資訊視覺化的理論基石.

多維統計圖形 (1975-2023年)

處理範圍從簡單的統計資料擴充套件為層次更複雜的的網路, 資料庫, 文字等非結構化與高維資料.

多互動視覺化 (1988-2023年)

可視分析學 (2005至今)

定義: 綜合視覺化, 圖形學, 資料探勘理論與方法, 提出新的理論模型, 可是化方法和使用者互動手段. 輔助使用者從大尺度, 複雜的資料中快速挖掘有用的資訊,以便使用者作出有效的決策.

資料視覺化面臨的挑戰:

(1)資料規模大,已超越單機、外存模型甚至小型計算集群處理能力的極限,而當前軟體和工具執行效率不高,需探索全新思路解決該問題。

(2)在資料獲取與分析處理過程中,易產生資料質量問題,需特別關注資料的不確定性。

(3)資料快速動態變化,常以流式資料形式存在,需要尋找流資料的實時分析與視覺化方法。

(4)面臨複雜高維資料,當前的軟體系統以統計和基本分析為主,分析能力不足。

(5)多**資料的型別和結構各異,已有方法難以滿足非結構化、異構資料方面的處理需求

資料視覺化發展方向:

(1)視覺化技術與資料探勘技術的緊密結合。資料視覺化可以幫助人類洞察出資料背後隱藏的潛在規律,進而提高資料探勘的效率,因此,視覺化與資料探勘緊密結合是視覺化研究的乙個重要方向。

(2)視覺化技術與人機互動技術的緊密結合。使用者與資料互動,可方便使用者控制資料,更好地實現人機互動是人類一直追求的目標。 因此,視覺化與人機互動相結合是視覺化研究的乙個重要發展方向。

(3)視覺化技術廣泛應用於大規模、高維度、非結構化資料的處理與分析。目前,我們處在大資料時代,大規模、高維度、非結構化資料層出不窮,若將這些資料以視覺化形式完美地展示出來,對人們挖掘資料中潛藏的價值大有裨益。因此,視覺化與大規模、高維度、非結構化資料結合是視覺化研究的乙個重要發展方向。

大資料視覺化課程筆記 6

6.2 文字資訊分析 6.3 文字資料視覺化 對文字的理解需求分為 詞彙級 語法級和語義級。詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。文字資料類別分為 單文字,文件集合,時序文字。url 統一資源定位符 格式 protocol hostname pr pa...

大資料視覺化(四)比例資料視覺化

比例資料根據類別 子類別 群體進行劃分。可以呈現各個部分與其他部分的相對關係,還可以呈現整體的構成情況 不太適合表示精確的資料 適合呈現各部分在整體中的比例,體現部分與整體之間的關係 data pd.read csv data vote result.csv datab data areas of ...

大資料視覺化(五)關係資料視覺化

關係資料具有關聯性與分布性 兩個量化資料之間的數理關係 通過資料關聯性可已根據乙個已知的數值變化來 另乙個數值的變化。正相關 負相關 不相關 散點圖 crime pd.read csv data crimeratesbystate2005.csv scatter add xaxis crime mu...