Sklearn 框架自帶資料集介面

2021-09-07 12:14:08 字數 1891 閱讀 6100

自帶資料集型別如下:

以鳶尾花資料為例,介紹一下自帶資料集的使用。

基本使用:

import sklearn

import matplotlib.pyplot as plt

# 載入資料集

iris = sklearn.datasets.load_iris() # 鳶尾花資料

# 列印資料集中的型別

print(iris.keys())

# dict_keys(['target', 'data', 'feature_names', 'descr', 'target_names'])

# target:標籤

# data :資料

# feature_names :特徵名稱,list,按照data中排序生成

# target_names : 標籤名稱,list,按照target中排序生成

print(iris.target.shape)

print(iris.data.shape)

print(iris.feature_names)

print(iris.target_names)

# (150,)

# (150, 4)

# ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

# ['setosa' 'versicolor' 'virginica']

使用乙個特徵繪製柱狀圖:

使用兩個特徵繪製散點圖:

x_index = 0

y_index = 1

colors = ['blue', 'red', 'green']

for label, color in zip(range(len(iris.target_names)), colors):

plt.scatter(iris.data[iris.target == label, x_index],

iris.data[iris.target == label, y_index],

label=iris.target_names[label], # 圖例內容

color=color)

plt.xlabel(iris.feature_names[x_index])

plt.ylabel(iris.feature_names[y_index])

plt.legend(loc='upper right') # 顯示圖例

其他自帶小型資料集(load的)均同理,以後遇到教程使用時不用再慌了。

sklearn 自帶資料集以及生成資料集

from sklearn import datasets toy datasets boston for regression x,y datasets.load boston return x y true print boston x.shape,y.shape iris for classif...

sklearn 自帶手寫字型資料集(二)

本篇部落格是使用機器學習自帶的手寫字型資料集來學習監督式機器學習 import matplotlib.pyplot as plt import pylab import numpy as np from sklearn import datasets,svm,metrics digits datas...

sklearn劃分資料集

train test split是用得最多的資料集劃分包,它的引數有五個 arrays 要切分的資料集,通過傳入兩個,x資料集和目標y test size 測試集樣本大小 random state 隨機種子數 shuffle 是否要對資料集隨機打亂 stratify 可以理解為分層抽樣的設定值,通過...