sklearn中的資料集

具體看原文：點選這裡

sklearn的資料集庫datasets提供很多不同的資料集，主要包含以下幾大類：

玩具資料集

真實世界中的資料集

樣本生成器

樣本svmlight或libsvm格式的資料

從從外部載入的資料

用的比較多的就是1和3，這裡進行主要介紹，其他的會進行簡單介紹，但是不建議使用。

統計了波士頓506處房屋的13種不同特徵（包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等）以及房屋的**，適用於回歸任務。

from sklearn import datasets  #
導入庫boston = datasets.load_boston() #
匯入波士頓房價資料
print(boston.keys()) #
檢視鍵(屬性) ['data','target','feature_names','descr', 'filename'] 
print(boston.data.shape,boston.target.shape) #
檢視資料的形狀 (506, 13) (506,)
print(boston.feature_names) #
檢視有哪些特徵 這裡共13種
print(boston.descr) #
described 描述這個資料集的資訊 
print(boston.filename) #
檔案路徑

view code

這個資料集包含了150個鳶尾花樣本，對應3種鳶尾花，各50個樣本，以及它們各自對應的4種關於花外形的資料，適用於分類任務。

from sklearn import datasets  #
導入庫iris = datasets.load_iris() #
匯入鳶尾花資料
print(iris.data.shape,iris.target.shape) #
(150, 4) (150,)
print(iris.feature_names) #
[花萼長，花萼寬，花瓣長，花瓣寬]

view code

還可以在sklearn\datasets_base.py檔案中檢視資訊：3類，每類50個，共150個樣本，維度（特徵）為4，特徵的數值是真實的，並且都是正數。

共有1797個樣本，每個樣本有64的元素，對應到乙個8x8畫素點組成的矩陣，每乙個值是其灰度值， target值是0-9，適用於分類任務。

sklearn劃分資料集

train test split是用得最多的資料集劃分包，它的引數有五個 arrays 要切分的資料集，通過傳入兩個，x資料集和目標y test size 測試集樣本大小 random state 隨機種子數 shuffle 是否要對資料集隨機打亂 stratify 可以理解為分層抽樣的設定值，通過...

探索sklearn的資料集以紅酒資料集為例

剛剛使用sklearn學習機器學習進行資料分析，分享一些概念和想法，希望可以大家一起討論，如果理解或者表達有不準確的地方，請多多指點，不吝賜教，非常感謝在sklearn.datasets庫中有非常多的知名資料集，在使用資料集前我總是對資料沒有直觀了解，所以下面整理一些datasets庫中資料集的屬...

sklearn 自帶資料集以及生成資料集

from sklearn import datasets toy datasets boston for regression x,y datasets.load boston return x y true print boston x.shape,y.shape iris for classif...

sklearn中的資料集

sklearn劃分資料集

探索sklearn的資料集 以紅酒資料集為例

sklearn 自帶資料集以及生成資料集

相關推薦

探索sklearn的資料集以紅酒資料集為例