資料清洗及特徵處理

2021-10-23 14:51:43 字數 1298 閱讀 8044

import numpy as np

import pandas as pd

df=pd.read_csv('train.csv')

#檢視每個特徵缺失值個數

df.info()

df.isnull().sum()
df.dropna()
df.fillna()
#對age列的資料缺失值進行處理

df[df['age']==none]=0

df[df.duplicated()]
df.drop_duplicates()
#將連續變數age平均分箱成5個年齡段,並分別用類別變數12345表示

df['ageband']=pd.cut(df['age'],5,labels=['1','2','3','4','5'])

#將連續變數age劃分為[0,5),[5,15),[15,30),[30,50),[50,80)五個年齡段,並分別用類別變數12345表示

df['ageband']=pd.cut(df['age'],[0,5,15,30,50,80],labels=['1','2','3','4','5'])

#將連續變數age按10%,30%,50%,70%,90%五個年齡段,並用分類變數12345表示

df['ageband']=pd.qcut(df['age'],[0,0.1,0.3,0.5,0.7,0.9],labels=['1','2','3','4','5'])

#檢視類別文字變數名及種類

df['***'].value_counts()

df['***'].unique()
df['***'].nunique()
#將類別文字轉換為12345

df['***_num']=df['***'].replace(['male','female'],[1,2])

df['***_num']=df['***'].map()
df['title']=df.name.str.extract('([a-za-z]+)\.',expand=false)

第二章 資料清洗及特徵處理

有以下兩種方法 df.info 可以直接看到不缺失的值的數量 df.isnull sum 統計缺失值的數量 單獨提取 age cabin embarked這三個特徵 df age cabin embarked head 3 兩種比較優劣 df df age np.nan 0 df df age no...

資料分析 Task2 資料清洗及特徵處理

1.重複值,df.duplicated drop duplicates,刪除整行重複值 2.連續型變數離散化 分箱 1.將連續變數age平均分箱成5個年齡段,並分別用類別變數12345表示 df box pd.cut df 年齡 5,labels 1 2 3 4 5 2.將連續變數age劃分為 0,...

特徵工程 清洗資料

我們在進行機器學習的時候,採用的資料樣本往往是向量 特徵向量 而我們的原始資料並不是以向量的形式呈現給我們的,這是便需要將資料對映到特徵 直接對映便ok 雖然機器學習是根據浮點值進行的訓練,但是不需要將整數6轉換為6.0,這個過程是預設的 好多時候,有的特徵是字串,比如此前訓練的加利福尼亞房產資料集...