sklearn 自帶資料集以及生成資料集

2021-10-03 00:19:16 字數 2606 閱讀 8953

from sklearn import datasets

# toy datasets

# boston for regression

x, y = datasets.load_boston(return_x_y=

true

)print

('boston'

,x.shape,y.shape)

# iris for classification( 3 classes)

x, y = datasets.load_iris(return_x_y=

true

)print

('iris'

,x.shape,y.shape)

# diabetes for regression

x, y = datasets.load_diabetes(return_x_y=

true

)print

('diabetes'

,x.shape,y.shape)

# linnerud for multivariate regression

x, y = datasets.load_linnerud(return_x_y=

true

)print

('linnerud'

,x.shape,y.shape)

# wine for classification(3 classes)

x, y = datasets.load_wine(return_x_y=

true

)print

('wine'

,x.shape,y.shape)

# breast cancer for classification(2 classes)

x, y = datasets.load_breast_cancer(return_x_y=

true

)print

('cancer'

,x.shape,y.shape)

結果:

boston (

506,13)

(506,)

iris (

150,4)

(150,)

diabetes (

442,10)

(442,)

linnerud (20,

3)(20

,3)wine (

178,13)

(178,)

cancer (

569,30)

(569

,)

分類資料集

# generate datasets

import pandas as pd

import matplotlib.pyplot as plt

# make_blobs

x, y = datasets.make_blobs(n_samples=

100000

, centers=3,

n_features=

2, random_state=0)

fig, ax = plt.subplots(

)df = pd.dataframe(

dict

(x=x[:,

0], y=x[:,

1], label=y)

)colors =

grouped = df.groupby(

'label'

)for key, group in grouped:

group.plot(ax=ax, kind=

'scatter'

, x=

'x', y=

'y', label=key,

color=colors[key]

)plt.show(

)

資料分布:

此外,make_moons()函式用於二分類並且將生成乙個漩渦模式;make_circles()函式生成乙個資料集落入同心圓的二進位制分類問題。

回歸資料

# generate regression datasets

x,y = datasets.make_regression(n_samples=

1000

, n_features=

10,

noise=

0.1)

plt.scatter(x[:,

0], y)

plt.show(

)

資料分布

參考:sklearn load datasets;

機器之心 如何在python中用scikit-learn生成測試資料集 ;

Sklearn 框架自帶資料集介面

自帶資料集型別如下 以鳶尾花資料為例,介紹一下自帶資料集的使用。基本使用 import sklearn import matplotlib.pyplot as plt 載入資料集 iris sklearn.datasets.load iris 鳶尾花資料 列印資料集中的型別 print iris.k...

sklearn 自帶手寫字型資料集(二)

本篇部落格是使用機器學習自帶的手寫字型資料集來學習監督式機器學習 import matplotlib.pyplot as plt import pylab import numpy as np from sklearn import datasets,svm,metrics digits datas...

sklearn劃分資料集

train test split是用得最多的資料集劃分包,它的引數有五個 arrays 要切分的資料集,通過傳入兩個,x資料集和目標y test size 測試集樣本大小 random state 隨機種子數 shuffle 是否要對資料集隨機打亂 stratify 可以理解為分層抽樣的設定值,通過...