機器學習之共享單車使用量專案設計

2021-09-25 23:02:46 字數 2548 閱讀 5347

## 刪除無用的列

df.drop(columns=

["instant"

,"dteday"

,"casual"

,"registered"

],inplace=

true

)## 獨熱編碼,對需要進行獨熱編碼的列編碼

hot = df[

["season"

,"mnth"

,"hr"

,"weekday"]]

hotcoder = onehotencoder(sparse=

false

)hot = pd.dataframe(hotcoder.fit_transform(hot)

)## 刪除掉獨熱編碼的列

df.drop(columns=

["season"

,"mnth"

,"hr"

,"weekday"

],inplace=

true

)# 多項式擴充套件

poly = df[

["weathersit"

,"temp"

,"atemp"

,"hum"

,"windspeed"]]

polycoder = polynomialfeatures(degree=

2,interaction_only=

false

,include_bias=

false

)poly = pd.dataframe(polycoder.fit_transform(poly)

,columns=polycoder.get_feature_names())

# 標準化

sscoder = standardscaler(

)poly = pd.dataframe(sscoder.fit_transform(poly)

,columns=polycoder.get_feature_names())

# 刪除掉標準化的列

df.drop(columns=

["weathersit"

,"temp"

,"atemp"

,"hum"

,"windspeed"

],inplace=

true

)# 合併

df = pd.concat(

[hot,poly,df]

,axis=1)

# 構建x和y

x = df.iloc[:,

:-1]

y = df.iloc[:,

[-1]

]# 劃分訓練集和測試集

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=

0.3)

# 訓練linearregression模型

model = linearregression(

)model.fit(x_train,y_train)

model.score(x_test,y_test)

mean_absolute_error(y_pred=model.predict(x_test)

,y_true=y_test)

# 訓練ridge

這個專案主要是練習對資料的處理能力,資料處理的好壞很大程度上影響了最終的模型的好壞。

所以經驗很重要,對問題研究的越深入,越能選擇出好的特徵,模型就會訓練的越好。

機器學習 共享的單車實戰演練

1.拿到這個資料需要刪除那些沒有用的列,比如序號 2.進行獨熱編碼 3.進行多項式擴充套件 4.標準化 5.切分資料集 6.建立模型求出資料 import pandas as pd from sklearn.model selection import train test split from s...

機器學習之使用Apriori演算法進行關聯分析

from numpy import def loaddataset return 1,3,4 2,3,5 1,2,3,5 2,5 def createc1 dataset c1 for transaction in dataset for item in transaction if not ite...

機器學習之辣雞使用matlab(一)KNN

1.實現最基本的knn演算法,使用trainingdigits資料夾下的資料,對testdigits中的資料進行 k賦值為1,使用歐氏距離,多數投票決定分類結果 2.改變k的值,並觀察對正確率的影響。資料集來自 資料集介紹 digits 目錄下有兩個資料夾,分別是 trainingdigits 訓練...