資料預處理之資料視覺化

2022-03-17 17:06:53 字數 1357 閱讀 3988

資料視覺化可以幫助我們理解資料:檢視資料的分布情況,觀察有沒有異常值,各個變數之間的相關情況。

當我們進行資料視覺化的時候,我們要緊緊圍繞著這個變數和我們的目標變數之間的關係,在繪製大多數圖的時候都要出現目標變數。

連續型資料的視覺化:

對於連續的數值型別資料,我們常常使用直方圖(histogram)來進行描述資訊,將連續的資料分成乙個個的bin。plt.hist和seaborn中的distplot可以進行直方圖的繪製。使用核密度估計kedplot可以檢視概率密度的情況。

無論是單獨的觀察連續的數值型別資訊,還是結合其他的分類資料觀察數值型別的資訊,使用直方圖是免不了的。使用直方圖可以讓我們發現資料的分布情況,一般為正太分布,繼而能夠看到資料的偏度和峰度情況,在這個情況上可以做進一步的決策,比如是否對資料進行標準化等。假如各個段的資訊分布是有差別的,那麼是否對連續資料進行分組操作。

對於連續變數,也可以使用箱形圖(boxplot)還有小提琴圖(violinplot),前者可以發現資料中的異常點,中位數等資訊。後者可以看中位數,還有資料分布的概率密度情況。

連續變數和連續變數結合:

這個時候可以使用散點圖(scatter)來看它們之間的關係,從散點圖裡面能夠看出一些資訊,比如是不是線性相關,或者是呈現指數分布。另外還可以從中發現出來一些異常點。

連續變數和分類變數結合

連續變數和分類變數結合的時候,假如不是只使用連續變數的某類資訊,(比如只使用連續變數的均值作為乙個軸上面的資訊),那麼還是要使用上述連續變數所使用的幾種圖形的。這個時候通常將分類變數當做乙個座標軸上的乙個個取值,在這個取值下面觀察連續變數的分布情況。比如分類變數作為x軸,y軸用箱形圖觀察變數的分布。

分類變數

對於分類變數,可以使用條形圖(barplot), 點圖(pointplot),觀察他們之間的關係。觀察分類變數和目標變數之間的關係。在繪圖的時候,分類變數通常要和分類變數結合,或者和連續變數結合,同時看好幾個變數結合起來的情況。

檢視整體情況

對於很多變數,有沒有一些方法來檢視這些變數之間的整體情況,或者兩兩變數之間的關係?這個時候可以使用pairplot和heatmap(熱圖)來進行檢視。前者可以檢視到兩個變數的分布情況,後者可以檢視到變數之間的相關性。

問題與總結:

上面寫的就是當我們觀察各個變數的時候使用的一般策略。在進行變數觀察的時候,難的不是畫圖這個動作,而是決定看哪些變數與哪些變數之間的關係,以及以及如何進行觀察。選擇的變數和觀察方式不同,我們能夠得到的結論就不同。

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

Python資料處理之資料視覺化 二

本篇使用資料 口袋妖怪資料集 提取碼s30w import pandas as pd import matplotlib.pyplot as plt import matplotlib.gridspec as gridspec 匯入資料 data pd.read csv data pokemon p...

資料視覺化之pyecharts

pyecharts乙個讓你變得強大的學習 首先來開始繪製你的第乙個圖表 from pyecharts.charts import bar bar bar bar.add xaxis 可樂 雪碧 礦泉水 咖啡 冰紅茶 涼白開 bar.add yaxis 商家a 5,20,36,10,75,90 ren...