大資料視覺化(六)文字資料視覺化

2021-10-12 02:56:00 字數 2358 閱讀 2146

在於利用視覺化技術刻畫文字和文件,將其中的資訊直觀的呈現。

對文字的理解需求分為**:詞彙級、語法級和語義級。

詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。

文字資料類別分為: 單文字, 文件集合, 時序文字。

文字視覺化的基本流程:原始文字-->文字資訊挖掘(文字預處理、文字特徵的抽取和度量)-->檢視繪製(圖元設計、圖元布局)-->人機互動

url(統一資源定位符)格式:protocol://hostname[pr/]pat/;parametersj[?query]#fragment詞袋模型tf-idf

tf-idf是一種用於資訊檢索與資料探勘的常用加權技術。tf的含義是詞頻,idf的含義是逆文字頻率指數。

tf-idf的主要思想是:字詞在某個文字的重要性與它在這個文字**現的次數正相關,但同時也會隨著它在文件集合**現的頻率增加而下降。

主題模型是對文字中隱含主題的一種建模方法,它從語義級別描述文件集中的各個文字資訊。

文字主題的抽取演算法大致可分為兩類:基於貝葉斯的概率模型和基於矩陣分解的非概率模型。

文字資料視覺化可以分為文字內容的視覺化,文字關係的視覺化以及文字多特徵資訊的視覺化。

將乙個單詞作為中心點,中心點的詞彙可以由使用者指定,選擇不同的中心點詞彙呈現出的視覺化結果將大不相同。

將整個文章內的詞語呈現在乙個放射式層次圓環中,外層的詞內層詞的下義詞。這樣就可以直觀的展示文件的中心詞在詞語關係網中是如何被呈現的。

2時序文字視覺化

(1) 主題河流:

主題河流主要用於反映文字主題強弱變化的過程。

侷限性:只能在每個時間刻度上各主題簡單概括成乙個數值,不能描繪主題的特性

經典的主題河流模型包括以下兩個屬性:

(2) 文字流:

文字流是不僅可以表達主題的變化,還能隨著時間的推移展示各個主題之間**與合併的狀態。

(3) 故事流:

故事流常用來表示電影或者**裡的劇情線或者時間線。

3文字分布視覺化

文字弧視覺化技術不僅可以展現詞頻,還可以展示詞的分布情況。

文字湖的特性如下:

用一條螺旋線表示一篇文章,螺旋線的首尾對應著文章的首尾,文章的詞語有序的分布在螺旋線上。

若詞語在整篇文章**現的比較頻繁,則靠近畫布的中心區域分布。

若詞語只是在區域性出現的比較頻繁,則靠近螺旋線分布。

字型的大小和顏色深度代表著詞語的出現頻率。

基於圖的文字關係視覺化:

(1) 詞語樹:

詞語樹可以直觀地呈現出乙個詞語和其前後的詞語,使用者可自定義感興趣的詞語作為中心節點,中心節點向前擴充套件,就是文字中處於該詞與前面的詞語,中心節點向後擴充套件,就是文字中處於該詞語後面的詞語。字型大小大小代表了詞語在文字**現的頻率。

(2) 短語網路:

短語網路包括以下兩種屬性:

節點:代表乙個詞語或短語。

帶箭頭的連線:表示節點與節點與節點之間的關係,需要使用者定義

文件間資料視覺化

(1) 星系檢視:

星系檢視可用於表徵多個文件之間的相似性。

(2) 文件集抽樣投影:

#**pyecharts官方文件

import json

from pyecharts import options as opts

from pyecharts.charts import graph

with open("weibo.json", "r", encoding="utf-8") as f:

j = json.load(f)

nodes, links, categories, cont, mid, userl = j

c = (

graph()

.add(

"",nodes,

links,

categories,

repulsion=50,

linestyle_opts=opts.linestyleopts(curve=0.2),

label_opts=opts.labelopts(is_show=false),

).set_global_opts(

legend_opts=opts.legendopts(is_show=false),

title_opts=opts.titleopts(title="graph-微博**關係圖"),

).render("graph_weibo.html")

)

文字資料視覺化 練習

coding utf 8 matplotlib是乙個 python 的 2d數學繪相簿 安裝 pip install matplotlib import matplotlib.pyplot as plt jieba中文分詞庫 安裝 pip install jieba import jieba wor...

大資料視覺化(四)比例資料視覺化

比例資料根據類別 子類別 群體進行劃分。可以呈現各個部分與其他部分的相對關係,還可以呈現整體的構成情況 不太適合表示精確的資料 適合呈現各部分在整體中的比例,體現部分與整體之間的關係 data pd.read csv data vote result.csv datab data areas of ...

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...