python機器學習(2)訓練 交叉驗證 測試

2021-09-12 08:09:01 字數 740 閱讀 8179

import numpy as np

#將文字檔案轉換為numpy矩陣

with open(「prices.txt」,「r」) as file:

data = np.array([line.strip().split(",") for line in file],dtype=np.float32)

length =len(data)

#求出資料長度

n_train,n_cv = int(0.7length),int(0.15length)

#選出訓練集和交叉集

idx = np.random.permutation(length)

#隨機產生乙個序列

train_idx,cv_idx = idx[:n_train],idx[n_train:n_train+n_cv]

test_idx = idx[n_train+n_cv:]

#把幾個集都給選好

train,test,cv = data[train_idx],data[test_idx],data[cv_idx]

#以上完成了把資料從txt文字讀出來並且完成分類的過程

說明,prices.txt檔案應該和你創造的這個py檔案在同一路徑下

有關numpy的知識會慢慢補充出來

這裡先寫下np.random.permutation的作用 [超連結準備]

預設你已經裝好了scikit-learn 這個模組

python機器學習 2

監督 資料點已知結果 無監督 資料點有未知的結果 回歸 結果是連續的 數值 分類 結果是乙個範疇 監督學習綜述 data withanswers model fit model data withoutanswers model predict predictedanswers 分類 分類答案 em...

機器學習 交叉驗證

假設我們需要從某些候選模型中選擇最適合某個學習問題的模型,我們該如何選擇?以多元回歸模型為例 我們假設模型集合為有限集 假設樣本集為s,根據經驗風險最小化原則 erm 可能會使用這樣的演算法 1.在s上訓練每個模型 2.選擇訓練誤差最小的假設函式,即為我們需要的函式。然而,這樣的演算法實際上並不有效...

機器學習 交叉驗證

交叉驗證是最好的測試方法 乙個問題叫做交叉驗證,是指假設要將乙份資料拆分成訓練集和測試集,這個時候怎麼評估出它的誤差?交叉驗證是把集合拆成五份,取四份做訓練集 乙份做測試集,並且每次選擇不同的那乙份做測試級,最後測出五個結果再做平均,這被認為是最好的測試方法。交叉驗證確實是乙個還不錯的驗證的方法,但...