python缺失資料處理 python 缺失值處理

2021-10-16 16:22:11 字數 687 閱讀 2974

# 用隨機森林對缺失值**填充函式

def set_missing(df):

# 把已有的數值型特徵取出來

process_df = df.ix[:,[變數]]

# 分成已知該特徵和未知該特徵兩部分

known = process_df[process_df.變數.notnull()].as_matrix()

unknown = process_df[process_df.變數.isnull()].as_matrix()

# x為特徵屬性值

x = known[:, 1:]

# y為結果標籤值

y = known[:, 0]

# fit到randomforestregressor之中

rfr = randomforestregressor(random_state=0, n_estimators=200,max_depth=3,n_jobs=-1)

rfr.fit(x,y)

# 用得到的模型進行未知特徵值**

predicted = rfr.predict(unknown[:, 1:]).round(0)

print(predicted)

# 用得到的**結果填補原缺失資料

df.loc[(df.變數.isnull()), '變數'] = predicted

return df

資料處理 缺失值處理

資料缺失主要包括記錄缺失和字段資訊缺失等情況,其對資料分析會有較大影響,導致結果不確定性更加顯著 缺失值的處理 刪除記錄 資料插補 不處理 判斷是否有缺失值資料 isnull,notnull isnull 缺失值為true,非缺失值為false notnull 缺失值為false,非缺失值為true...

資料處理之缺失值處理

coding utf 8 概念 由於某些原因,導致資料中的某些列的值缺失,這種情況可能是正常的,也可能是不正常的。我們可以選擇不處理 補齊 或刪除對應的行 dropna函式作用 去除資料結構中值為空的資料。dropna函式語法 dropna from pandas import read csv d...

python,pandas缺失值資料處理

缺失值資料處理方式 1.資料補齊 2.刪除對應資料行 3.不處理 data.csv檔案內容 uft 8編碼 包含全世界所有國家需要用到的字元,英文 用的較多 gbk編碼 包含全部的中文字元 unicode編碼 把所有語言統一到一套編碼 df pd.read csv r c data data.csv...