scikit learn機器學習簡介

2021-10-02 13:29:16 字數 1325 閱讀 1309

目錄

機器學習:問題設定

載入示例資料集

學習和**

模型永續性

約定拓展知識鏈結

在本節中,我們介紹整個scikit-learn中使用的機器學習詞彙,並給出了乙個簡單的學習示例。

機器學習:問題設定

通常,學習問題會考慮一組n個資料樣本,然後嘗試**未知資料的屬性。 如果每個樣本都大於乙個數字,例如是多維條目(也稱為多元資料),則稱其具有多個屬性或特徵。

學習問題可分為以下幾類:

監督學習,其中資料帶有我們要**的其他屬性。此問題可能是:

分類:樣本屬於兩個或多個類別,我們想從已經標記的資料中學習如何**未標記資料的類別。 分類問題的乙個示例是手寫數字識別,其中的目的是將每個輸入向量分配給有限數量的離散類別之一。 思考分類的另一種方法是作為一種離散的(而不是連續的)監督學習形式,其中乙個類別的數量有限,並且對於所提供的n個樣本中的每個樣本,一種嘗試是使用正確的類別或類別標記它們 。

回歸:如果期望的輸出包含乙個或多個連續變數,則該任務稱為回歸。回歸問題的乙個例子是根據鮭魚的年齡和體重來**其長度。

無監督學習,其中訓練資料由一組輸入向量x組成,沒有任何相應的目標值。 此類問題的目標可能是發現資料內的相似示例組(稱為聚類),或確定輸入空間內資料的分布(稱為密度估計),或從高維投影資料縮小至兩到三個維度以進行視覺化。

訓練集和測試集

機器學習是關於學習資料集的某些屬性,然後針對另乙個資料集測試這些屬性。 機器學習中的一種常見做法是通過將資料集分為兩部分來評估演算法。 我們稱其中一組為訓練集,在該訓練集上我們學習一些屬性; 我們將另一組稱為測試集,在該測試集上測試學習的屬性。

載入示例資料集

scikit-learn附帶一些標準資料集,例如用於分類的 iris和digits 資料集和用於回歸的波士頓房價資料集。

接下來,我們從shell啟動python直譯器,然後載入iris和digits資料集。我們的符號約定是$表示shell提示符,而》表示python直譯器提示符:

$ python

from sklearn import datasets

iris = datasets.load_iris()

digits = datasets.load_digits()

資料集是乙個類似於字典的物件,其中包含所有資料和有關該資料的一些元資料。 此資料儲存在.data成員中,該成員是乙個n_samples,n_features陣列。 在監督問題的情況下,乙個或多個響應變數儲存在.target成員中。

例如,對於數字資料集,使用digits.data可以訪問可用於對數字樣本進行分類的功能:

詳情參閱

機器學習及scikit learn

1.機器學習基本步驟 1 定義一系列函式 2 定義函式的優劣 3 選擇最優函式 2.什麼是scikit learn?1 面向python的免費機器學習庫 2 包含分類 回歸 聚類演算法,比如 svm 隨機森林 k means等 3 包含降維 模型選擇 預處理等演算法 4 支援numpy和scipy資...

機器學習 scikit learn(1)

1.通過樣本來 未知的資料 通過學習資料集的特徵 訓練集 training set 來應用到新的資料上。2.監督學習 分類 樣本屬於多於兩個類,我們想要從已經標記過的資料來 未標記資料的類 digits 回歸 如果想要的輸出包括多餘乙個連續的變數 無監督 訓練集包括一系列的向量x而沒有相對應的y 目...

scikit learn機器學習模組(上)

scikit learn中的資料 資料格式 2維陣列或者矩陣,n samples,n features 包含資料集 iris data digits data,boston data housing price diabetes data例如 from sklearn.datasets import...