機器學習之Sklearn庫

2021-10-06 16:30:16 字數 3408 閱讀 9425

sklearn庫是在numpy、scipy和matplotlib的基礎上開發而成的,因此在介紹sklearn的安裝前,需要先安裝這些依賴庫。

numpy是乙個開源的python科學計算庫。

scipy庫是sklearn庫的基礎,它是基於numpy的乙個整合了多種數學演算法和函式的python模組。

matplotlib是基於numpy的一套python工具包,它提供了大量的資料繪圖工具。

資料集總覽

資料集名稱

呼叫方式

適用演算法

波士頓房價資料集

load_boston()

回歸鳶尾花資料集

load_iris()

分類糖尿病資料集

load_diabetes()

回歸手寫資料集

load_digits()

分類olivetti臉部影象資料集

fetch_olivetti_faces()

降維新聞分類資料集

fetch_20newsgroups()

分類帶標籤的人臉資料集

fetch_lfw_people()

分類,降維

路透社新聞語料資料集

fetch_revl()

分類波士頓房價資料集

該資料集包含美國人口普查局收集的美國麻薩諸塞州波士頓住房**的有關資訊, 506個案例。

資料集都有以下14個屬性:

crim–城鎮人均犯罪率

zn - 占地面積超過25,000平方英呎的住宅用地比例。

indus - 每個城鎮非零售業務的比例。

chas - charles river虛擬變數(如果是河道,則為1;否則為0)

nox - 一氧化氮濃度(每千萬份)

rm - 每間住宅的平均房間數

age - 2023年以前建造的自住單位比例

dis加權距離波士頓的五個就業中心

rad - 徑向高速公路的可達性指數

tax - 每10,000美元的全額物業稅率

ptratio - 城鎮的學生與教師比例

b - 1000(bk - 0.63)^ 2其中bk是城鎮黑人的比例

lstat - 人口狀況下降%

medv - 自有住房的中位數**, 單位1000美元

使用sklearn.datasets.load_boston即可載入相關資料集

重要引數:

return_x_y:表示是否返回target(即**),預設為false,只返回data(即屬性)

示例1:

from sklearn.datasets import load_boston

boston = load_boston(

)print

(boston.data.shape)

#返回值(506,13)

示例2:

from sklearn.datasets import load_boston

data,target = load_boston(return_x_y=

true

)print

(data.shape)

#返回值(506,13)

print(target.shape)

#返回值(506)

鳶尾花資料集

鳶尾花資料集採集的是鳶尾花的測量資料以及其所屬的類別。

測量資料報括:萼片長度、萼片寬度、花瓣長度、花瓣寬度。

類別分為三類:iris setosa,iris versicolour,iris virginica。該資料集可用於多分類問題。

使用sklearn.datasets.load_iris即可載入相關資料集

引數:return_x_y:若為true,則以(data,target)形式返回資料;預設為false,表示以字典形式返回資料全部資訊(包括data和target)。

載入示例:

from sklearn.datasets import load_iris

iris = load_iris(

)print

(iris.data.shape)

#返回值(150,4)

print

(iris.target.shape)

#返回值(150,)

list

(iris.target_names)

#返回值['setosa','versicolor','virginica']

手寫數字資料集

手寫數字資料集包括1797個書寫數字資料,每個數字由8*8大小的矩陣構成,矩陣中值的範圍是0~16,代表顏色的深度。

return_x_y:若為true,則以(data,target)形式返回資料;預設為false,表示以字典形式返回資料全部資訊(包括data和target)。

n_class:表示返回資料的類別數,如:n_class=5,則返回0到4的資料樣本。

sklearn庫的功能共分為6大部分,分別用於完成分類任務、回歸任務、聚類任務、降維任務、模型選擇以及資料的預處理。

分類任務

分類模型

載入模組

最近鄰演算法

neighbor.nearestneighbors

支援向量機

svm.svc

樸素貝葉斯

*****_bayes.gaussiannb

決策樹tree.decisiontreeclassifier

整合方法

ensemble.baggingclassifier

神經網路

neural_network.mlpclassifier

回歸任務

回歸模型

載入模組

嶺回歸linear_model.ridge

lasso回歸

linear_model.lasso

彈性網路

linear_model.elasticnet

最小角回歸

linear_model.lars

貝葉斯回歸

linear_model.bayesianridge

邏輯回歸

linear_model.logisticregression

多項式回歸

preprocessing.polynomialfeatures

本次主要介紹分類和回歸任務。

sklearn 機器學習庫

pipeline parameters steps 步驟 列表 list 被連線的 名稱,變換 元組 實現擬合 變換 的列表,按照它們被連線的順序,最後乙個物件是估計器 estimator memory 記憶體引數,instance of sklearn.external.joblib.memory...

機器學習入門之sklearn

原始碼 from sklearn.datasets import load iris from sklearn.model selection import train test split def datasets demo sklearn資料集使用 return 獲取資料集 iris load ...

機器學習python庫sklearn安裝

可以使用pip安裝。在安裝時需要進行包依賴檢查,具體有以下幾個要求 python 2.6 or 3.3 numpy 1.6.1 scipy 0.9 如果滿足上述條件,就能使用pip進行安裝了 pip install u scikit learn當然,使用pip安裝會比較麻煩,推薦使用anaconda...