機器學習資料預處理方法與技巧系統講解

資料探勘專案中最重要的事，並非演算法模型的選擇與調參，而是資料的預處理。在真實資料中（包括 kaggle 等比賽），通常存在大量的缺失值和噪音，這些對演算法的效果有極大影響。不僅如此，特徵的量級差異，也會影響**演算法的效果。如 knn 演算法，假設資料點有兩個特徵 x1，x2，其中 x1 的量級為 x2 的 10 倍，判斷距離時，由於距離變成了平方和，x1 的重要性就會是 x2 的 100 倍！再如：根據某房屋的資料集來**客戶購買房屋的可能，其特徵包括房屋面積，**，則可生成乙個新特徵：每平公尺** = ** / 房屋面積。

這個特徵多麼重要，大家也看的出來。然而，靠調參是做不到的，也沒法做到這種效果，只有通過資料預處理進行特徵生成才能夠實現。然而，現在卻沒有人系統性地講解這些技巧。

這次 chat，就是來系統性地告訴你各種資料預處理的方法技巧。最後，會以 python 來講解乙個資料預處理的例子。