sklearn中的資料集

2022-07-23 16:12:31 字數 1283 閱讀 9749

具體看原文:點選這裡

​ sklearn的資料集庫datasets提供很多不同的資料集,主要包含以下幾大類:

玩具資料集

真實世界中的資料集

樣本生成器

樣本svmlight或libsvm格式的資料

從從外部載入的資料

用的比較多的就是1和3,這裡進行主要介紹,其他的會進行簡單介紹,但是不建議使用。

​ 統計了波士頓506處房屋的13種不同特徵( 包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等 )以及房屋的**,適用於回歸任務。

from sklearn import datasets  #

導入庫boston = datasets.load_boston() #

匯入波士頓房價資料

print(boston.keys()) #

檢視鍵(屬性) ['data','target','feature_names','descr', 'filename']

print(boston.data.shape,boston.target.shape) #

檢視資料的形狀 (506, 13) (506,)

print(boston.feature_names) #

檢視有哪些特徵 這裡共13種

print(boston.descr) #

described 描述這個資料集的資訊

print(boston.filename) #

檔案路徑

view code

​ 這個資料集包含了150個鳶尾花樣本,對應3種鳶尾花,各50個樣本,以及它們各自對應的4種關於花外形的資料 ,適用於分類任務。

from sklearn import datasets  #

導入庫iris = datasets.load_iris() #

匯入鳶尾花資料

print(iris.data.shape,iris.target.shape) #

(150, 4) (150,)

print(iris.feature_names) #

[花萼長,花萼寬,花瓣長,花瓣寬]

view code

​ 還可以在sklearn\datasets_base.py檔案中檢視資訊:3類,每類50個,共150個樣本,維度(特徵)為4,特徵的數值是真實的,並且都是正數。

​ 共有1797個樣本,每個樣本有64的元素,對應到乙個8x8畫素點組成的矩陣,每乙個值是其灰度值, target值是0-9,適用於分類任務。

sklearn劃分資料集

train test split是用得最多的資料集劃分包,它的引數有五個 arrays 要切分的資料集,通過傳入兩個,x資料集和目標y test size 測試集樣本大小 random state 隨機種子數 shuffle 是否要對資料集隨機打亂 stratify 可以理解為分層抽樣的設定值,通過...

探索sklearn的資料集 以紅酒資料集為例

剛剛使用sklearn學習機器學習進行資料分析,分享一些概念和想法,希望可以大家一起討論,如果理解或者表達有不準確的地方,請多多指點,不吝賜教,非常感謝 在sklearn.datasets庫中有非常多的知名資料集,在使用資料集前我總是對資料沒有直觀了解,所以下面整理一些datasets庫中資料集的屬...

sklearn 自帶資料集以及生成資料集

from sklearn import datasets toy datasets boston for regression x,y datasets.load boston return x y true print boston x.shape,y.shape iris for classif...