資料預處理

資料探勘的五大流程

1.獲取資料

2.資料預處理

從資料中檢測，糾正，刪除損壞，不準確，不適用的資料，可能的問題有：

資料型別不同，比如有文字，有的是數字，有的含有時間序列，有的質量不行，

有雜訊，有異常，有缺失，有重複，等等。

目的：讓資料適應模型，匹配模型的需求。

3.特徵工程

將原始資料轉換成更能代表**模型的潛在問題的特徵的過程。可以通過挑選最相關的特徵，提取特徵

以及創造特徵，（通常用降維演算法實現。）

可能面對的問題：特徵之間有相關性，特徵與標籤無關，特徵太多，太少，或者無法表現出應有的資料現象。

目的：降低計算成本，提公升模型上限。

4.建模，測試模型並**結果.

5.上線，驗證模型效果。![在這裡插入描述](https://img-

資料的無量綱化：資料標準化，規範化。

方法：中心化。縮放處理。

資料歸一化：（normalization 或者 min_max_scaling）缺點：對異常值過於敏感，所以一般選擇所方時，選擇標準化。

資料標準化：（standardization）,資料按照均值中心化後，再按照標準差縮放，就會服從均值為0，方差為1的正太分布，這就叫做資料標準化。

資料預處理

現實世界中資料大體上都是不完整，不一致的髒資料，無法直接進行資料探勘，或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法資料清理，資料整合，資料變換，資料歸約等。這些資料處理技術在資料探勘之前使用，大大提高了資料探勘模式的質量，降低實際挖掘所需要的時間。一資料清...

資料預處理

常見的資料預處理方法，以下通過sklearn的preprocessing模組來介紹變換後各維特徵有0均值，單位方差。也叫z score規範化零均值規範化計算方式是將特徵值減去均值，除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

用cut函式分箱有時把數值聚集在一起更有意義。例如，如果我們要為交通狀況路上的汽車數量根據時間分鐘資料建模。具體的分鐘可能不重要，而時段如上午下午傍晚夜間深夜更有利於如此建模更直觀，也能避免過度擬合。這裡我們定義乙個簡單的可復用的函式，輕鬆為任意變數分箱。def binni...

資料預處理

資料預處理

資料預處理

資料預處理

相關推薦