Pandas 缺失值填充的方法

2021-09-29 12:30:06 字數 1500 閱讀 7842

# 重新載入原始資料

titanic_df=pd.read_csv(

"titanic.csv"

)# 計算所有人年齡的均值

age_median1 = titanic_df.age.median(

)# 使用fillna填充缺失值,inplace=true表示在原資料titanic_df上直接進行修改

titanic_df.age.fillna(age_median1, inplace=

true

)# 檢視age列的統計值

titanic_df.age.describe(

)

titanic_df = pd.read_csv(

"titanic.csv"

)# 分組計算男女年齡的中位數, 得到乙個series資料,索引為***

age_median2 = titanic_df.groupby(

"***"

).age.median(

)# 設定索引為***

titanic_df.set_index(

"***"

,inplace=

true

)# 使用fillna填充缺失值,根據索引值填充

titanic_df[

"age"

].fillna(age_median2,inplace=

true

)# 重置索引,即取消***索引

titanic_df.reset_index(inplace=

true

)titanic_df[

"age"

].describe(

)

# 重新載入原始資料

titanic_df=pd.read_csv(

"titanic.csv"

)# 分組計算不同艙位男女年齡的中位數, 得到乙個series資料,索引為pclass,***

age_median3 = titanic_df.groupby(

['pclass'

,'***'])

.age.median(

)# 設定pclass, ***為索引, inplace=true表示在原資料titanic_df上直接進行修改

titanic_df.set_index(

['pclass'

,'***'

], inplace=

true

)# 使用fillna填充缺失值,根據索引值填充

titanic_df.age.fillna(age_median3, inplace=

true

)# 重置索引,即取消pclass,***索引

titanic_df.reset_index(inplace=

true

)# 檢視age列的統計值

titanic_df.age.describe(

)

pandas 填充缺失值

當資料中存在nan缺失值時,我們可以用其他數值替代nan,主要用到了dataframe.fillna 方法,下面我們來看看具體的用法 1.先來建立乙個帶有缺失值的dataframe 2.使用0替代缺失值 當然你可以用任意乙個數字代替nan df.fillna 0 3.用乙個字串代替缺失值 df.fi...

缺失值處理 缺失值填充方法總結

我們在進行模型訓練時,不可避免的會遇到某些特徵出現空值的情況,下面整理了幾種填充空值的方法 對於特徵值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999,9999,例如下面對灰度分這個特徵缺失值全部填充為 99 data 灰度分 data 灰度分 fillna 99 對於數值型的特徵,其缺...

關於缺失值填充的方法

背景 很多資料不可避免的會遺失掉,或者採集的時候採集物件不願意透露,這就造成了很多nan not a number 的出現。這些nan會造成大部分模型執行出錯,所以對nan的處理很有必要。方法1 簡單粗暴地去掉 有如下dataframe,先用df.isnull sum 檢查下哪一列有多少nan im...