機器學習基礎2

機器學習開發流程：

監督學習（英語：supervised learning），可以由輸入資料中學到或建立乙個模型，並依此模式推測新的結果。輸入資料是由輸入特徵值和目標值所組成。函式的輸出可以是乙個連續的值（稱為回歸），或是輸出是有限個離散值（稱作分類）。即特徵值+目標值。如：

分類：k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網路（目標值離散型）

回歸：線性回歸、嶺回歸（目標值連續）

標註：隱馬爾可夫模型

無監督學習（英語：supervised learning），可以由輸入資料中學到或建立乙個模型，並依此模式推測新的結果。輸入資料是由輸入特徵值所組成。即特徵值。如：

聚類 k-means

機器學習一般的資料集會劃分為兩個部分：

訓練資料：用於訓練，構建模型

測試資料：在模型檢驗時使用，用於評估模型是否有效

sklearn資料集劃分api

sklearn.model_selection.train_test_split

scikit-learn自帶資料集api

sklearn.datasets

載入獲取流行資料集

datasets.load_*
()

獲取小規模資料集，資料報含在datasets裡

datasets.fetch_*
(data_home=
none
)

獲取資料集返回的型別

load*和fetch*返回的資料型別datasets.base.bunch(字典格式) data：特徵資料陣列，是 [n_samples * n_features] 的二維 numpy.ndarray 陣列 target：標籤陣列，是 n_samples 的一維 numpy.ndarray 陣列 descr：資料描述 feature_names：特徵名,新聞資料，手寫數字、回歸資料集沒有 target_names：標籤名,回歸資料集沒有

資料集進行分割

sklearn.model_selection.train_test_split(
*arrays,
**options)
x 資料集的特徵值
y 資料集的標籤值
test_size 測試集的大小，一般為float
random_state 隨機數種子,不同的種子會造成不同的隨機
取樣結果。相同的種子取樣結果相同。
return 訓練集特徵值，測試集特徵值，訓練標籤，測試標籤
(預設隨機取)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li = load_iris(
)print
("獲取特徵值"
)print
(li.data)
print()
print
("目標值"
)print
(li.target)
print()
# 訓練集 train x_train y_train 測試集：test_x test_y
x_train,x_test,y_train,y_test=train_test_split(li.data, li.target, test_size=
0.25
)# 輸出名稱不可以亂
print
("訓練集的特徵值和目標值"
,x_train,y_train)
print()
print
("測試集的特徵值和目標值"
,x_test,y_test)

注：呼叫fit_transform(對於文件建立分類詞頻矩陣，不能同時呼叫)等於呼叫fit 和transform

在訓練和測試時必須先用fit_transform(traindata)，之後再transform(testdata)

如果直接transform(testdata)，程式會報錯；如果fit_transfrom(traindata)後，使用fit_transform(testdata)而不是transform(testdata)，那麼兩個結果不是在同乙個「標準」下的，具有明顯差異。(要避免這種情況)。

在sklearn中，估計器(estimator)是乙個重要的角色，是機器學習的演算法實現。分類器和回歸器都屬於estimator，是一類實現了演算法的api

1、用於分類的估計器：

sklearn.neighbors k-近鄰演算法

sklearn.*****_bayes 貝葉斯

sklearn.linear_model.logisticregression 邏輯回歸

2、用於回歸的估計器：

sklearn.linear_model.linearregression 線性回歸

sklearn.linear_model.ridge 嶺回歸

工作流程

機器學習基礎2

機器學習基礎自學筆記2

機器學習基礎演算法梳理 2

機器學習基礎DAY2

機器學習基礎2

機器學習基礎自學筆記2

機器學習基礎演算法梳理 2

機器學習基礎DAY2

相關推薦