pandas處理缺失資料

2021-09-22 03:49:29 字數 2056 閱讀 5046

na處理方法

方法 說明

dropna

根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值得容忍度

fillna

用指定值或插值方法(如ffill和bfill)填充缺失資料

isnull

返回乙個含有布林值的物件,這些布林值表示哪些值是缺失值na,該物件的型別與源型別一樣

notnull

isnull的否定式

濾除缺失資料(dropna)

series

in [

1]:

import

pandas

aspd in [

2]:

from

pandas

import

dataframe, series in [

3]:

import

numpy

asnp in [

4]:

from

numpy

import

nan

asna in [

5]: data = series([

1, na,

3.5, na,

7]) in [

6]: data.dropna() out[

6]:

01.0

23.5

47.0

dtype: float64 in [

7]: data[data.notnull()] out[

7]:

01.0

23.5

47.0

dtype: float64

dataframe

填充缺失資料(fillna)!!

替換值利用

fillna

方法填充缺失資料可以看做值替換的一種特殊情況。而

replace

則提供了一種實現該功能的更簡單、更靈活的方式。

in[11

]: data = series([

1.,-

999.,2.

,-999.

,-1000.,3.

]) in[12

]: data

out[

12]:

01.01-

999.0

22.03-

999.04-

1000.0

53.0

dtype: float64 in[

13]: data

.replace

(-999

, np

.nan

) out[13

]: 0

1.01

nan

22.0

3nan 4-

1000.0

53.0

dtype: float64 in[

14]: data

.replace

([-999

,-1000

], np

.nan

) out[14

]: 0

1.01

nan

22.0

3nan

4nan

53.0

dtype: float64 in[

15]: data

.replace

([-999

,-1000

], [np

.nan,0

]) out[15

]: 0

1.01

nan

22.0

3nan

40.0

53.0

dtype: float64 in[

16]: data

.replace

() out[16

]: 0

1.01

nan

22.0

3nan

40.0

53.0

dtype: float64

Pandas 處理缺失資料

import numpy as np import pandas as pd from pandas import series,dataframes series a b np.nan,c d pd.isnull s 0 false 1 false 2 true 3 false 4 false d...

pandas處理,填充缺失資料

1 pandas使用浮點值nan表示浮點和非浮點陣列的缺失資料 對於乙個series可以用dropna方法或者通過布林型索引達到目的 2 對於dataframe丟棄全na 丟棄全為na的那些行 丟棄全為na的那些列 利用thresh,留下一部分觀測資料 thresh 3,表示在行方向上至少有3個非n...

Pandas中資料的缺失處理

在pandas資料處理中,資料值缺失是經常面臨的問題。如何查詢 處理缺失值就成了資料處理的必備方法。一 缺失值型別 pandas中缺失值主要有三種符號 np.nan none和nat。np.nan是缺失值的一種符號,nan意為not a number。它不等於任何東西,包括它本身。其次,在使用equ...