100天專案 Day1 資料預處理

拿到資料後，正常遇到的問題可能有以下：

資料中含有空值：需要對空值做處理

資料有非數值型維度，需要轉換為資料維度，且分成多個虛擬字段

資料值範圍太大，可以對數轉化等標準化處理

主要**注釋和資料如下：

遇到的問題主要是import sklearn.model_selection 報錯，安裝了最新版的anaconda後就ok了

import numpy as np
import pandas as pd
data = pd.read_csv(r'd:\users\lulib\desktop\data.txt',sep='\t')
x = data.iloc[:,:-1].values ## x的值為資料來源
y = data.iloc[:,-1].values ## y 的值為最終的資料標籤
## na資料用均值填充
from sklearn.preprocessing import imputer
imputer = imputer(missing_values="nan",strategy="mean",axis=0)
## 資料範圍轉化一致 對數處理 e 為底
imputer = imputer.fit(x[:,1:])
x[:,1:] = imputer.transform(x[:,1:])
## 分類包
from sklearn.preprocessing import labelencoder, onehotencoder
## 文字描述性字段轉換為數值
labelencoder_x = labelencoder()
x[ : , 0] = labelencoder_x.fit_transform(x[ : , 0])
## 將x的文本性描述字段轉換為多個虛擬字段，標誌為0 1 
onehotencoder = onehotencoder(categorical_features = [0])
x = onehotencoder.fit_transform(x).toarray()
labelencoder_y = labelencoder()
y = labelencoder_y.fit_transform(y)
## 資料來源分為測試資料和訓練資料
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split( x , y , test_size = 0.2, random_state = 0)
##特徵標準化
機器學習基礎100天 day01 資料預處理
資料集 country age salary purchased 0 france 44.0 72000.0 no 1 spain 27.0 48000.0 yes 2 germany 30.0 54000.0 no 3 spain 38.0 61000.0 no 4 germany 40.0 na...
專案實訓 day1
專案分析 本次實習實訓內容是實現驗證碼識別，使用神經網路和影象識別進行主要的邏輯處理，之後完成後端和前端的，對專案進行完整的展示。今日工作 第一天主要是對專案資料集部分進行了分析，描述產品系統產品的輸入經過什麼處理轉換為輸出，描述在產品系統中進行的基本操作。對於每一類功能或者有時對於每乙個功能，需要...
專案Alpha衝刺Day1
1.今日安排 討論完成專案的詳細設計，並完成資料庫的設計，學習powerdesigner的使用 2.問題困難 powerdesigner匯出sql語句因為問題無法匯入，特別一直存在外來鍵問題。有同學是跨專業過來的，一些設計和資料庫都不怎麼了解，參與到其中的時候交流有困難。3.心得體會 設計還是要團隊...

100天專案 Day1 資料預處理

機器學習基礎100天 day01 資料預處理

專案實訓 day1

專案Alpha衝刺Day1

相關推薦