pandas入門之缺失資料的處理

2021-10-07 11:01:54 字數 967 閱讀 7017

一、缺失觀測及其型別

1.df.head(n)讀取前n行資料,空白不填,預設前五行

2.直接使用``isna和 notna方法,返回布林值

3.獲取每一列共有多少缺失值

(1) isna()

(2) info()

4.三種缺失符號

(1)np.nan

(2)none

(3)nat

5.nullable型別與na符號

(1)nullable整形,記為int

(2)nullable布林,記為boolean

(3)string型別

6.na的特性

(1)邏輯運算

(2)算術運算和比較運算

7.convert_dtypes方法,在讀取資料時,就把資料列轉為nullable型別

二、缺失資料的運算與分組

1.加號與乘號規則

【問題一】 如何刪除缺失值佔比超過25%的列?

step1:計算各列缺失量

df.isna().

sum(

)

step2:計算缺失值佔比

step3:刪除佔比超過25%的列

【問題二】 什麼是nullable型別?請談談為什麼要引入這個設計?

在 處理丟失的資料部分, 我們知道pandas主要使用 nan 來代表丟失資料。因為 nan 屬於浮點型資料,這強制有缺失值的整型array強制轉換成浮點型。在某些情況下,這可能不會有太大影響,但是如果你的整型資料恰好是識別符號,資料型別的轉換可能會存在隱患。同時,某些整數無法使用浮點型來表示。integerarray目前屬於實驗性階段,因此他的api或者使用方式可能會在沒有提示的情況下更改。

【問題三】 對於乙份有缺失值的資料,可以採取哪些策略或方法深化對它的了解?

1.了解資料缺失程度,評價其可用性;

本文的內容來自datawhale社群pandas組隊學習專案,具體教程請檢視

pandas記錄之缺失資料

資料讀取 帶資料型別 import pandas as pd df pd.read csv data missing data two.csv convert dtypes df.info class pandas.core.frame.dataframe rangeindex 36 entries...

pandas學習之缺失資料

今天總結下缺失資料處理心得。在拿到資料 拼接資料 彙總資料時,一定要使用df.isna sum 或df.isna mean 觀察是否存在缺失資料,後乙個方法還可以檢測出缺失資料佔比。我今天在使用groupby彙總資料時,忘記檢視缺失資料,導致結果不全,白白浪費1個小時時間 因時間關係,我就簡單講解下...

Pandas 缺失資料

一.處理缺失資料 二.濾除缺失資料 三.填充缺失資料 方法說明 dropna根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 fillna用指定值或插值方法 如 ffill 或 bfill 填充缺失資料 isnull返回乙個含有布林值的物件,這些布林值表示哪些值時預設...