Pandas 缺失值處理

2021-10-24 13:48:29 字數 1235 閱讀 8799

二、處理缺失值

首先拿到乙份資料,以dataframe提取後,要檢視缺失值的情況

import pandas as pd

df = pd.read_csv(***)

df.isnull(

)# 獲得true,false的返回值

df.isnull().

sum(

)# 判斷缺失的數量

常用此介面來快速判斷各特徵的缺失值情況!

df.dropna()

直接丟掉缺失值,預設丟掉樣本,即na對應的行

df.dropna(axis = 1)

直接丟掉缺失值,丟掉特徵,即丟掉na對應的列

df.dropna(thresh=4)

設定閾值,要求樣本至少含有4個非缺失資料,否則會丟棄

df.dropna(subset=[『c』])

僅丟掉』c』列存在缺失值的樣本,其他列忽視

工具:imputer

from sklearn.preprocessing import imputer

imr = imputer(missing_values=

'nan'

, strategy=

'mean'

, axis=0)

#採取該特徵下完整資料的平均值來填充na

imr = imr.fit(df)

imputed_data = imr.transform(df.values)

imputed_data

fillna(self, value=none, method=none, axis=none, inplace=false, limit=none, downcast=none, **kwargs)

df.fillna(0)

value=0, 即用0來填充缺失值,常用於連續值的填充

df.fillna(-1)

value=-1, 即用-1來填充缺失值,常用於類別型特徵的填充

df.fillna(『ffill』)

method=『ffill』,向下填充策略

df.fillna(『bfill』)

method=『bfill』,向上填充策略

df.fillna(df.mean())

平均值填充策略

df.fillna(df.median())

中位數填充策略

Pandas缺失值處理

判斷資料是否為nan pd.isnull df pd.notnull df 判斷缺失值是否存在 np.all pd.notnull data 返回false代表有空值 np.any pd.isnull data 返回true代表有空值處理方式 2 替換缺失值 fillna value,inplace...

Pandas的缺失值處理

處理方式 不是缺失值nan,有預設標記的 判斷資料是否為nan pd.isnull df pd.notnull df pd.isna df 讀取資料 movie pd.read csv date imdb movie data.csv 第一種 刪除 pandas刪除缺失值,使用dropna的前提是,...

pandas 高階處理 缺失值處理

存在缺失值nan,並且是np.nan 2 替換缺失值 fillna value,inplace true value 替換成的值 3如果缺失值沒有使用nan標記,比如使用 讀取電影資料 判斷是否全不為空,如果沒有空返回true,否則flase np.all pd.notnull movie 不修改原...