機器學習Day2

2021-10-20 17:57:16 字數 1252 閱讀 7677

英文原鏈結源鏈結

假設: x和y是線性相關的

則需要找到乙個關於x的線性函式來盡可能準確的**y。

y = a0+ a1x1

怎樣找到最合適的回歸線?

通過最小化**值和觀測值的均方差

導入庫、匯入資料集、檢查缺失資料、分離訓練集和測試集、特徵縮放

從sklearn.linear_model中匯入linearregression類。

通過linearregression生成乙個regressor物件

通過linearrgression和訓練集適配regressor

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

dataset = pd.read_csv(

'studentscores.csv'

)x = dataset.iloc[:,

:1].values

y = dataset.iloc[:,

1].values

from sklearn.cross_validation import train_test_split

x_train, x_test, y_train, y_test = train_test_split( x, y, test_size=1/

4, random_state =0)

from sklearn.linear_model import linearregression

regressor = linearregression(

)regressor = regressor.fit(x_train, y_train)

y_pred = regressor.predict(x_test)

# scatter 點

plt.scatter(x_train , y_train, color =

'red'

)# plot 線?

plt.plot(x_train , regressor.predict(x_train)

, color =

'blue'

)plt.scatter(x_test , y_test, color =

'red'

)plt.plot(x_test , regressor.predict(x_test)

, color =

'blue'

)

機器學習 day2

歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...

機器學習基礎DAY2

1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...

機器學習學習筆記 day2

周志華 機器學習 學習筆記 最近開始學習機器學習,參考書籍西瓜書,做點筆記。第二章 模型評估與選擇 錯誤率 分類錯誤的樣本數佔樣本總數的比例,e a m。精度 分類正確的樣本數佔樣本總數的比例,精確度 1 錯誤率。過擬合 訓練樣本學的太好,導致泛化效能下降。欠擬合 訓練樣本學的不太好。測試集與訓練集...