pandas處理丟失資料

2021-09-22 02:01:16 字數 887 閱讀 5363

pandas將none和nan視為可交換的,它們都可以用來指示丟失的資料。

none可以代替丟失值(哨兵值)並不適合所有情況,只能用於陣列的型別為物件的情況。 none會導致一些聚合操作,比如sum()min()會報錯。

nan 代替丟失值(另外一中哨兵值)一種特殊的浮點型資料,不管什麼操作,只要有nan,結果都為nan(聚合操作能進行,但結果都是nan)

numpy提供了一些函式用於聚合運算,可以忽略掉丟失的資料: np.nansum(陣列) np.nanmin(陣列) np.nanmax(陣列)

pandas中的none和nan

none和nan在pandas有其獨特的地位,pandas同時支援它們,並可以相互轉換。

針對null值的操作

陣列.isnull():用於建立掩碼陣列

陣列.notnull():isnull()的反操作

陣列.dropna(): 返回過濾後的資料

陣列.fillna(): 返回填充後的資料

檢測null值

陣列.isnull()可用於檢查null值,返回乙個布林值陣列 true為nan false為有資料

陣列.notnull()函式跟isnull()函式相反,可用於檢查null值,返回乙個布林值陣列:false返回nan true返回有資料

刪除null值

陣列.dropna()來刪除na值(刪除空值)(預設刪行)

在dataframe中無法刪除單個的值,只能刪除(有nan)整行或者整列資料。

以通過thresh來指定最少保留多少個na值。

填充null值

陣列.fillna()方法,把nan填充成其他的值(或指定的值)。

pandas處理丟失資料

有兩種丟失資料的方式 none np.nan nan 1,none none是python當中自帶的,型別為python object,所以,none是不能參與到任何的計算當中的 2,np.nan np.nan是浮點型別,能參與到計算當中,但是計算的結果為nan pandas中none與np.nan...

Pandas處理丟失資料

pandas處理丟失資料 1 建立含nan的矩陣 dates pd.date range 20130101 periods 6 df pd.dataframe np.arange 24 reshape 6,4 index dates,columns a b c d df.iloc 0,1 np.na...

Pandas處理丟失資料

dates pd.date range 20130101 periods 6 df pd.dataframe np.arange 24 reshape 6,4 index dates,columns a b c d df.iloc 0,1 np.nan df.iloc 1,2 np.nan prin...