自帶的資料集 python視覺化分析鳶尾花資料集

同學們你們好，貓老師又來更新了，我們在做資料分析的這個過程中，所用的資料集可以**於實際的案例，也可以從網上尋找公開的資料資源，當然也可以編碼生成乙個隨機資料集。本章採用python的sklearn機器學習庫中自帶的資料集——鳶尾花資料集。簡單分析資料集之間特徵的關係圖，根據花瓣長度、花瓣寬度、花萼長度、花萼寬度四個特徵進行繪圖。

iris plants data set資料集可以從sklearn包裡面直接拿到，也可以從keel dataset資料集**獲取。資料集共包含4個特徵變數、1個類變數，一共有150個樣本。類別變數分別對應鳶尾花的三個亞屬，分別是山鳶尾 (iris-setosa)、變色鳶尾(iris-versicolor)和維吉尼亞鳶尾(iris-virginica)。

資料視覺化可以更好地了解資料，主要呼叫pandas擴充套件包進行繪圖操作。

首先繪製直方圖，直觀的表現花瓣、花萼的長和寬特徵的數量，縱座標表示彙總的數量，橫座標表示對應的長度。

import pandas

#匯入資料集iris

url = ""

names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']

dataset = pandas.read_csv(url, names=names) #讀取csv資料

print(dataset.describe())

#直方圖 histograms

dataset.hist()

呼叫hist()函式實現，輸出圖形如下所示：

接下來通過dataset.plot()繪製散點圖，這裡設定三個引數，顯示的x座標、y座標和設定繪圖種類。

import pandas

#匯入資料集iris

url = ""

names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']

dataset = pandas.read_csv(url, names=names) #讀取csv資料

print(dataset.describe())

dataset.plot(x='sepal-length', y='sepal-width', kind='scatter')

其中kind設定為scatter，而matplotlib擴充套件包中scatter()函式也是用於繪製散點圖的。

（未完待續）

自帶的資料集 python視覺化分析鳶尾花資料集

Python 資料視覺化

資料視覺化什麼是資料視覺化

Python資料視覺化總結

自帶的資料集 python視覺化分析鳶尾花資料集

Python 資料視覺化

資料視覺化 什麼是資料視覺化

Python資料視覺化總結

相關推薦

資料視覺化什麼是資料視覺化