資料處理之缺失值處理

2021-10-01 20:07:47 字數 889 閱讀 6378

#-*- coding: utf-8 -*-

#概念:由於某些原因,導致資料中的某些列的值缺失,這種情況可能是正常的,也可能是不正常的。我們可以選擇不處理、補齊、或刪除對應的行

#dropna函式作用:去除資料結構中值為空的資料。

#dropna函式語法:dropna()

from pandas import read_csv

df = read_csv("d:/workspaces/python/pythonstudy/9.csv",encoding='utf-8')

#檢視匯入結果,可以看到有的列的值是空的nan

#有些情況,我們可能有這樣的需求:如果某個列的值是某個字串,那麼,我們也認為它是空的:

df = read_csv("d:/workspaces/python/pythonstudy/9.csv",              

na_values=['null'])

#觀察得到的df物件,可以看到csv檔案中的null,讀取出來也是nan了

#找出空值的位置:

isna = df.isnull() #返回的是乙個資料框物件,元素值都是布林型別的

#獲取空值所在的行

df[isna.any(axis=1)] #只要某一行,有任意乙個值為空,就會返回該行,執行結果是乙個資料框,裡面都是包含空值的行

df[isna[['key']].any(axis=1)] #返回名稱為key的列存在空值的行

df[isna[['key','value']].any(axis=1)] #返回名稱為key或value的列存在空值的行(任意一列存在空值則返回)

#對空值進行填充:

df.fillna('未知')

#刪除包含空值的行

newdf = df.dropna()

資料處理 缺失值處理

資料缺失主要包括記錄缺失和字段資訊缺失等情況,其對資料分析會有較大影響,導致結果不確定性更加顯著 缺失值的處理 刪除記錄 資料插補 不處理 判斷是否有缺失值資料 isnull,notnull isnull 缺失值為true,非缺失值為false notnull 缺失值為false,非缺失值為true...

python,pandas缺失值資料處理

缺失值資料處理方式 1.資料補齊 2.刪除對應資料行 3.不處理 data.csv檔案內容 uft 8編碼 包含全世界所有國家需要用到的字元,英文 用的較多 gbk編碼 包含全部的中文字元 unicode編碼 把所有語言統一到一套編碼 df pd.read csv r c data data.csv...

插值法補齊缺失資料 資料處理 缺失值處理

此文圖方便,就直接輸入資料了。importpandas as pd df pd.dataframe 1缺失值處理 如何判斷缺失值 df.isnull isna df.notnull notna 1.1刪除法 dataframe.dropna axis 0,how any thresh none,su...