機器學習 sklearn資料集簡介

2021-09-09 02:36:57 字數 825 閱讀 4647

監督學習 特徵值 + 目標值

-分類 目標值是離散資料

-回歸 目標值是連續資料

無監督學習 只有特徵值

-聚類

資料

-訓練集 80% 70% 75%

-測試集 20% 30% 25%

資料拆分:

sklearn.model_selection.train_test_split

sklearn資料集

sklearn.datasets

-小規模資料集

-datasets.load_*()

-大規模資料集

-datasets.fetch_*()

資料型別

datasets.base.bunch(字典格式)

data:特徵資料 二維陣列[n_samples * n_features]

target: 標籤陣列

descr: 資料描述

feature_names:特徵名(新聞資料,手寫數字,回歸資料集沒有)

target_names:標籤名

資料集介紹

分類資料集

鳶尾花資料集 sklearn.datasets.load_iris

新聞資料集 sklearn.datasets.fetch_20newsgroups

回歸資料集

波士頓房價資料集 sklearn.datasets.load_boston

糖尿病資料集 sklearn.datasets.load_diabetes

sklearn機器學習 PCA

pca使用的資訊量衡量指標,就是樣本方差,又稱可解釋性方差,方差越大,特徵所帶的資訊量越多 原理推導 class sklearn decomposition.pca n components none,copy true whiten false svd solver auto tol 0.0,it...

sklearn 機器學習庫

pipeline parameters steps 步驟 列表 list 被連線的 名稱,變換 元組 實現擬合 變換 的列表,按照它們被連線的順序,最後乙個物件是估計器 estimator memory 記憶體引數,instance of sklearn.external.joblib.memory...

機器學習資料集

ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...