機器學習基礎2

2021-10-14 03:55:39 字數 2789 閱讀 4549

機器學習開發流程:

監督學習(英語:supervised learning),可以由輸入資料中學到或建立乙個模型,並依此模式推測新的結果。輸入資料是由輸入特徵值和目標值所組成。函式的輸出可以是乙個連續的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。即特徵值+目標值。如:

分類:k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網路 (目標值離散型)

回歸:線性回歸、嶺回歸(目標值連續)

標註:隱馬爾可夫模型

無監督學習(英語:supervised learning),可以由輸入資料中學到或建立乙個模型,並依此模式推測新的結果。輸入資料是由輸入特徵值所組成。即特徵值。如:

聚類 k-means

機器學習一般的資料集會劃分為兩個部分:

訓練資料:用於訓練,構建模型

測試資料:在模型檢驗時使用,用於評估模型是否有效

sklearn資料集劃分api

sklearn.model_selection.train_test_split

scikit-learn自帶資料集api

sklearn.datasets

載入獲取流行資料集

datasets.load_*

()

獲取小規模資料集,資料報含在datasets裡

datasets.fetch_*

(data_home=

none

)

獲取資料集返回的型別

load*和fetch*返回的資料型別datasets.base.bunch(字典格式)

data:特徵資料陣列,是 [n_samples * n_features] 的二維 numpy.ndarray 陣列

target:標籤陣列,是 n_samples 的一維 numpy.ndarray 陣列

descr:資料描述

feature_names:特徵名,新聞資料,手寫數字、回歸資料集沒有

target_names:標籤名,回歸資料集沒有

資料集進行分割

sklearn.model_selection.train_test_split(

*arrays,

**options)

x 資料集的特徵值

y 資料集的標籤值

test_size 測試集的大小,一般為float

random_state 隨機數種子,不同的種子會造成不同的隨機

取樣結果。相同的種子取樣結果相同。

return 訓練集特徵值,測試集特徵值,訓練標籤,測試標籤

(預設隨機取)

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

li = load_iris(

)print

("獲取特徵值"

)print

(li.data)

print()

print

("目標值"

)print

(li.target)

print()

# 訓練集 train x_train y_train 測試集:test_x test_y

x_train,x_test,y_train,y_test=train_test_split(li.data, li.target, test_size=

0.25

)# 輸出名稱不可以亂

print

("訓練集的特徵值和目標值"

,x_train,y_train)

print()

print

("測試集的特徵值和目標值"

,x_test,y_test)

注:呼叫fit_transform(對於文件建立分類詞頻矩陣,不能同時呼叫)等於呼叫fit 和transform

在訓練和測試時必須先用fit_transform(traindata),之後再transform(testdata)

如果直接transform(testdata),程式會報錯;如果fit_transfrom(traindata)後,使用fit_transform(testdata)而不是transform(testdata),那麼兩個結果不是在同乙個「標準」下的,具有明顯差異。(要避免這種情況)。

在sklearn中,估計器(estimator)是乙個重要的角色,是機器學習的演算法實現。分類器和回歸器都屬於estimator,是一類實現了演算法的api

1、用於分類的估計器:

sklearn.neighbors k-近鄰演算法

sklearn.*****_bayes 貝葉斯

sklearn.linear_model.logisticregression 邏輯回歸

2、用於回歸的估計器:

sklearn.linear_model.linearregression 線性回歸

sklearn.linear_model.ridge 嶺回歸

工作流程

機器學習基礎自學筆記2

1.1學習演算法 機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義 對於某類任務和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本 example ...

機器學習基礎演算法梳理 2

1.3 邏輯回歸損失函式 1.4 優缺點 1.5 樣本不均衡解決方法 二 正則化與模型評估 2.2 評估指標 2.2.1 混淆矩陣 邏輯回歸於線性回歸實際上有很多相似之處,它們都屬於乙個族群,即廣義線性模型。這一模型中的形式基本差不多,基於模型中資料的特徵進行建模,所解決的問題均以資料為導向的連續或...

機器學習基礎DAY2

1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...