資料預處理方法

資料匯入

初步看變數間的關係（視覺化，facetgrid）

仔細看：看因變數與各變數的關係

a）numerical用scatter

b）categorical用boxplot

看各變數之間的關係，是否存在多重共線性，相關性高的列可以刪除乙個

刪除對**沒用的列

看outlier：

1）通過standardscaler標準化後，在+/- 3個方差以外的為outlier

2）畫圖，與因變數關係特別強的幾個變數，關係在趨勢之外的可以視為outlier

從現有列中提取有用資訊，可能使用到正規表示式

分類問題

7. 將categorical變成ordinal （map，labelecoder，get_dummies）

8. 處理缺失值

1） random number 代替 2）同類的均值、中位數代替 # 對於train_df和test_df的同時修改，可以建list，然後寫乙個迴圈 combine = [train_df, test_df] for dataset in combine：

***xx

資料分組，如給age分組

pd.cut(train_df[
"age"],
5)# age的數值平均分5組
pd.qcut(train_df[
"age",5
])# age的個數平均分5組

形成新的列：通過加減乘除（根據變數含義邏輯）

回歸問題

7. 檢驗異方差性、正態性

一.資料清理 1.填出缺失值無記錄值資料 1 忽略元祖缺少類標號時使用，適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值可由回歸貝葉斯形式化的基於推理的工具或決策樹歸納確定...

原文資料預處理有四個任務，資料清洗資料整合資料變換和資料規約。一資料清洗 1.缺失值處理處理缺失值分為三類刪除記錄資料補差和不處理。資料補插方法 1.補插均值中位數眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法插值法介紹 1 拉格朗日插值法 2 牛頓插值法需要...

1 聚集聚集可能丟失細節，聚集是統計學的表現被聚集的單個物件按平均值總數按天周月等聚集量 2 抽樣選擇資料子集進行分析的方法。抽樣方法 a 隨機取樣無放回取樣放回取樣 b 分層取樣當總體有不同型別的物件組成，每種型別的物件差別很大時，隨機取樣不能充分的代表不太頻繁出現的物件型別...