100天專案 Day1 資料預處理

2021-09-03 07:40:17 字數 1796 閱讀 6882

拿到資料後,正常遇到的問題可能有以下:

資料中含有空值:需要對空值做處理

資料有非數值型維度,需要轉換為資料維度,且分成多個虛擬字段

資料值範圍太大,可以對數轉化等標準化處理

主要**注釋和資料如下:

遇到的問題主要是import sklearn.model_selection 報錯,安裝了最新版的anaconda後就ok了

import numpy as np

import pandas as pd

data = pd.read_csv(r'd:\users\lulib\desktop\data.txt',sep='\t')

x = data.iloc[:,:-1].values ## x的值為資料來源

y = data.iloc[:,-1].values ## y 的值為最終的資料標籤

## na資料用均值填充

from sklearn.preprocessing import imputer

imputer = imputer(missing_values="nan",strategy="mean",axis=0)

## 資料範圍轉化一致 對數處理 e 為底

imputer = imputer.fit(x[:,1:])

x[:,1:] = imputer.transform(x[:,1:])

## 分類包

from sklearn.preprocessing import labelencoder, onehotencoder

## 文字描述性字段轉換為數值

labelencoder_x = labelencoder()

x[ : , 0] = labelencoder_x.fit_transform(x[ : , 0])

## 將x的文本性描述字段轉換為多個虛擬字段,標誌為0 1

onehotencoder = onehotencoder(categorical_features = [0])

x = onehotencoder.fit_transform(x).toarray()

labelencoder_y = labelencoder()

y = labelencoder_y.fit_transform(y)

## 資料來源分為測試資料和訓練資料

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split( x , y , test_size = 0.2, random_state = 0)

##特徵標準化

機器學習基礎100天 day01 資料預處理

資料集 country age salary purchased 0 france 44.0 72000.0 no 1 spain 27.0 48000.0 yes 2 germany 30.0 54000.0 no 3 spain 38.0 61000.0 no 4 germany 40.0 na...

專案實訓 day1

專案分析 本次實習實訓內容是實現驗證碼識別,使用神經網路和影象識別進行主要的邏輯處理,之後完成後端和前端的,對專案進行完整的展示。今日工作 第一天主要是對專案資料集部分進行了分析,描述產品系統產品的輸入經過什麼處理轉換為輸出,描述在產品系統中進行的基本操作。對於每一類功能或者有時對於每乙個功能,需要...

專案Alpha衝刺Day1

1.今日安排 討論完成專案的詳細設計,並完成資料庫的設計,學習powerdesigner的使用 2.問題困難 powerdesigner匯出sql語句因為問題無法匯入,特別一直存在外來鍵問題。有同學是跨專業過來的,一些設計和資料庫都不怎麼了解,參與到其中的時候交流有困難。3.心得體會 設計還是要團隊...