自帶的資料集 python視覺化分析鳶尾花資料集

2021-10-25 12:26:16 字數 1460 閱讀 8892

同學們你們好,貓老師又來更新了,我們在做資料分析的這個過程中,所用的資料集可以**於實際的案例,也可以從網上尋找公開的資料資源,當然也可以編碼生成乙個隨機資料集。本章採用python的sklearn機器學習庫中自帶的資料集——鳶尾花資料集。簡單分析資料集之間特徵的關係圖,根據花瓣長度、花瓣寬度、花萼長度、花萼寬度四個特徵進行繪圖。

iris plants data set資料集可以從sklearn包裡面直接拿到,也可以從keel dataset資料集**獲取。資料集共包含4個特徵變數、1個類變數,一共有150個樣本。類別變數分別對應鳶尾花的三個亞屬,分別是山鳶尾 (iris-setosa)、變色鳶尾(iris-versicolor)和維吉尼亞鳶尾(iris-virginica)。

資料視覺化可以更好地了解資料,主要呼叫pandas擴充套件包進行繪圖操作。

首先繪製直方圖,直觀的表現花瓣、花萼的長和寬特徵的數量,縱座標表示彙總的數量,橫座標表示對應的長度。

import pandas

#匯入資料集iris

url = ""

names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']

dataset = pandas.read_csv(url, names=names) #讀取csv資料

print(dataset.describe())

#直方圖 histograms

dataset.hist()

呼叫hist()函式實現,輸出圖形如下所示:

接下來通過dataset.plot()繪製散點圖,這裡設定三個引數,顯示的x座標、y座標和設定繪圖種類。

import pandas

#匯入資料集iris

url = ""

names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']

dataset = pandas.read_csv(url, names=names) #讀取csv資料

print(dataset.describe())

dataset.plot(x='sepal-length', y='sepal-width', kind='scatter')

其中kind設定為scatter,而matplotlib擴充套件包中scatter()函式也是用於繪製散點圖的。

(未完待續)

Python 資料視覺化

資料視覺化指的是通過視覺化表示來探索資料,它與資料探勘緊緊相關,而資料探勘指的是使用 來探索資料集的規律和關聯。資料集可以是用一行 就能表示的小型數字列表,也可以是數以吉位元組的資料。漂亮地呈現資料關乎的並非僅僅是漂亮的。以引人注目的簡潔方式呈現資料,讓人能夠明白其含義,發現資料集中原本未意識到的規...

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

Python資料視覺化總結

用python完成資料分析後,如何把結果呈現出來,比如畫乙個吸引人注意的圖表相當重要。當你探索乙個資料集,需要畫圖表,圖表看起來令人愉悅是件很高興的事。在給你的觀眾交流觀點,給領導匯報工作時,視覺化同樣重要,同時,也很有必要去讓圖表吸引注意力和印入腦海裡。在python中numpy,pandas,m...