資料預處理方法

2021-10-02 05:46:52 字數 873 閱讀 5593

資料匯入

初步看變數間的關係(視覺化,facetgrid)

仔細看:看因變數與各變數的關係

a)numerical用scatter

b)categorical用boxplot

看各變數之間的關係,是否存在多重共線性,相關性高的列可以刪除乙個

刪除對**沒用的列

看outlier:

1)通過standardscaler標準化後,在+/- 3個方差以外的為outlier

2)畫圖,與因變數關係特別強的幾個變數,關係在趨勢之外的可以視為outlier

從現有列中提取有用資訊,可能使用到正規表示式

分類問題

7. 將categorical變成ordinal (map,labelecoder,get_dummies)

8. 處理缺失值

1) random number 代替

2)同類的均值、中位數代替

# 對於train_df和test_df的同時修改,可以建list,然後寫乙個迴圈

combine =

[train_df, test_df]

for dataset in combine:

***xx

資料分組,如給age分組

pd.cut(train_df[

"age"],

5)# age的數值平均分5組

pd.qcut(train_df[

"age",5

])# age的個數平均分5組

形成新的列:通過加減乘除(根據變數含義邏輯)

回歸問題

7. 檢驗異方差性、正態性

資料預處理方法

一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...

資料預處理方法

原文 資料預處理有四個任務,資料清洗 資料整合 資料 變換和資料規約。一 資料清洗 1.缺失值處理 處理缺失值分為三類 刪除記錄 資料補差和不處理。資料補插方法 1.補插均值 中位數 眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法 插值法介紹 1 拉格朗日插值法 2 牛頓插值法 需要...

資料預處理基本方法

1 聚集 聚集可能丟失細節,聚集是統計學的表現 被聚集的單個物件 按平均值 總數 按天 周 月等聚集量 2 抽樣 選擇資料子集進行分析的方法。抽樣方法 a 隨機取樣 無放回取樣 放回取樣 b 分層取樣 當總體有不同型別的物件組成,每種型別的物件差別很大時,隨機取樣不能充分的代表不太頻繁出現的物件型別...