pandas入門之缺失資料的處理

一、缺失觀測及其型別

1.df.head(n)讀取前n行資料，空白不填，預設前五行

2.直接使用``isna和 notna方法，返回布林值

3.獲取每一列共有多少缺失值

(1) isna()

(2) info()

4.三種缺失符號

(1)np.nan

(2)none

(3)nat

5.nullable型別與na符號

(1)nullable整形,記為int

(2)nullable布林,記為boolean

(3)string型別

6.na的特性

(1)邏輯運算

(2)算術運算和比較運算

7.convert_dtypes方法,在讀取資料時，就把資料列轉為nullable型別

二、缺失資料的運算與分組

1.加號與乘號規則

【問題一】如何刪除缺失值佔比超過25%的列？

step1:計算各列缺失量

df.isna().
sum(
)

step2：計算缺失值佔比

step3：刪除佔比超過25%的列

【問題二】什麼是nullable型別？請談談為什麼要引入這個設計？

在處理丟失的資料部分, 我們知道pandas主要使用 nan 來代表丟失資料。因為 nan 屬於浮點型資料，這強制有缺失值的整型array強制轉換成浮點型。在某些情況下，這可能不會有太大影響，但是如果你的整型資料恰好是識別符號，資料型別的轉換可能會存在隱患。同時，某些整數無法使用浮點型來表示。integerarray目前屬於實驗性階段，因此他的api或者使用方式可能會在沒有提示的情況下更改。

【問題三】對於乙份有缺失值的資料，可以採取哪些策略或方法深化對它的了解？

1.了解資料缺失程度，評價其可用性；

本文的內容來自datawhale社群pandas組隊學習專案，具體教程請檢視

pandas入門之缺失資料的處理

pandas記錄之缺失資料

pandas學習之缺失資料

Pandas 缺失資料

pandas入門之缺失資料的處理

pandas記錄之缺失資料

pandas學習之缺失資料

Pandas 缺失資料

相關推薦