缺失值處理

2022-05-13 14:27:09 字數 922 閱讀 7874

在日常的處理資料的時候,會遇到資料中某些地方沒有值,也就是缺失了。

對於這種情況,一半有兩種情況:刪除和插補。

一般步建議刪除。

引數介紹:missing_value 表示缺失值是什麼;strategy 表示填補的策略,是用均值還是中值等;axis表示按照行還是列填補。

注意:資料中的人缺失值必須為np.nan,不能為?或nan等。

可以用replace函式將缺失值轉換為np.nan

上**:

1

from sklearn.preprocessing import

standardscaler,imputer

2import

numpy as np

3def

im():

4'''

5缺失值處理

6:return:

7'''

8 im=imputer(missing_values='

nan', strategy='

mean

', axis=0)

9 data = im.fit_transform([[90,2,10,40],[np.nan,4,15,45],[75,3,13,46]])

10print

(data)

11if

__name__ == '

__main__':

12 im()

缺失值處理

pandas使用nan not a number 表示浮點和非浮點陣列中的缺失資料,python內建的none值也會被當做na處理,pandas物件上的所有描述統計都排除了缺失資料。na處理方法 方法 說明dropna 根據各標籤的值是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 ...

缺失值處理

之前寫過一篇文章缺失值視覺化處理 missingno 主要介紹了缺失值的檢視,今天聊一下,出現了缺失值後我們要做的後續工作,就是缺失值的處理。首先附上幾個 data資料集 data.isnull 缺失值判斷 是缺失值返回true,否則範圍false data.isnull sum 缺失值計算 返回每...

缺失值處理

資料清洗主要是刪除原始資料集中的無關資料 重複資料,平滑雜訊資料,去除與資料探勘主題無關的資料,處理缺失值 異常值等 缺失主要為完全隨機缺失,隨機缺失和非隨機缺失 資料的缺失是隨機的,資料的缺失不依賴於任何不完全變數或完全變數。資料的缺失不是完全隨機的,即該類資料的缺失依賴於其他完全變數。資料的缺失...