測試機器學習演算法的好壞

2022-05-09 03:39:06 字數 1075 閱讀 5408

一:當我們訓練出乙個模型,我們不知道這個模型是好還是壞,我們如果應用到真實環境,結果**的沒有可信度,所以在輸入樣例之前先對模型進行測試。這時,我們就要將我們所有的資料分為兩部分,一大部分用來訓練,一小部分用來測試,一般比例在8:2。也就是我們會有兩套資料集,乙個是訓練集,另乙個是測試集。

二:鳶尾花舉例說明

#測試機器學習演算法的好壞

import numpy as np

from sklearn import datasets

from sklearn.neighbors import kneighborsclassifier

iris = datasets.load_iris()#讀取資料

x = iris.data #獲取特徵資料

y = iris.target#獲取樣本標記

shuffle_indexs = np.random.permutation(len(x)) #將索引打亂順序,因為這裡面的標記都是排好序的,不打亂順序,不能將所有的標記載入到訓練集中

test_radio = 0.2

test_size = int(test_radio*len(x))

#獲取訓練的下標和測試的下標

train_indexs = shuffle_indexs[test_size:]

test_indexs = shuffle_indexs[:test_size]

#獲取訓練集的資料和測試集的資料

x_train = x[train_indexs]

y_train = y[train_indexs]

x_test = x[test_indexs]

y_test = y[test_indexs]

#knn演算法執行

knn = kneighborsclassifier(n_neighbors=5)

knn.fit(x_train,y_train)

y_predict = knn.predict(x_test) #**結果

rate = sum(y_predict==y_test)/len(y_test) #求比例

print(rate)#準確率

課堂測試 機器學習原理

1 用自己的話說明機器學習的四大分類 classification 分類 clustering 聚類 regression 回歸 dimensionality reduction 降維 classification 分類 分類需要先找到資料樣本點中的分界線,再根據分界線對新資料進行分類,分類資料是離...

如何測試機器的大小端

一 大小端 1 為啥會有大小端 在計算機系統中以位元組為單位,每個位址單位都有乙個位元組 乙個位元組8個bit位 在c語言中,有char 8bit short 16bit long 32bit,具體看編譯器 對於位數大於8的處理器,不如16位或者32位的處理器,由於暫存器寬度大於乙個位元組,那麼必然...

回歸 好壞 機器學習 python機器學習線性回歸

線性回歸是最簡單的機器學習模型,其形式簡單,易於實現,同時也是很多機器學習模型的基礎。對於乙個給定的訓練集資料,線性回歸的目的就是找到乙個與這些資料最吻合的線性函式。一般情況下,線性回歸假設模型為下,其中w為模型引數 線性回歸模型通常使用mse 均方誤差 作為損失函式,假設有m個樣本,均方損失函式為...