資料探勘之資料準備原始資料的轉換

接下來介紹的幾個資料轉換常見型別與問題無關，並可能改善資料探勘的結果。在特定應用中選擇和使用技術，取決於資料的型別，資料量和資料探勘任務的一般特徵。

1. 標準化

一些資料探勘方法，一般是那些基於n維空間中的點間距離計算的方法，可能需要對資料進行標準化，以獲得最佳結果。測量值可按比例對應到乙個特定的範圍。如【-1,1】或者【0,1】。如果沒有標準化，距離測量值將會超出數值較大的特徵。資料的標準化有許多方法，這裡列舉3個簡單有效的標準化技術。

1）小數縮放，小數縮放移動小數點，但仍然保留大多數原始數值。常見的縮放是使值在-1 到 1的範圍。小數縮放可以表示為等式：

v'(i) = v(i)/（10的k次冪）

在這個等式中，v（i）是特徵v對樣本i的值，v(i)' 是縮放後的值，k是保證|v'(i)| 的最大值小於1的最小比例。

首先，在資料集中找對|v'(i)|的最大值，然後移動小數點，直到得出乙個絕對值小於1的縮放新值。這個因子可用於所有的其他的v（i）

2）最小-最大標準化。假設特徵v的資料在150~250的範圍之間，則前述的標準化方法使所有標準化後的資料取值在0.15~0.25之間。但是這會讓值堆積在這個取值範圍的乙個小的子區間中。要使值在整個的標準化區間如【0,1】上獲得較好的分布，可以用最小-最大公式：

v'(i) = (v(i) - min[v(i)])/(max[v(i)] - min[v(i)])

其中特徵v的最小值和最大值是通過乙個集合自動計算的，或者是通過特定領域的專家估算出來的。這種轉換也可應用於標準化區間【-1，1】。最大值和最小值的自動計算需要對整個資料集進行另一次搜尋，但是計算過程很簡單。另一方面，最小值和最大值的專家估算可能導致標準化值的無意集中。

3）標準差標準化，按標準差進行的標準化對距離測量值非常有效，但是把初始資料的轉化成了未被認可的形式。對於特徵v，平均值mean(v) 和標準差sd（v）是針對整個資料集進行計算的。那麼對於樣本i，用下述等式來轉換特徵的值：

v(i) = （v[i] - mean[v]）/sd(v)

標準化對幾種資料探勘方法來說很有用，，但是標準化並不是一次性或乙個階段的事件。如果一種方法需要標準化資料，就要為所選的資料探勘技術對可用的資料進行轉換和準備，還必須對資料探勘的所有其他階段，所有的新資料和未來資料進行同樣的資料標準化。因此，必須把標準化的引數和方法一起儲存。

2、資料平整

數值型的特徵y可能包括許多不同的值，有時跟訓練案例數一樣多。對許多資料探勘技術來說，這些值之間的微小區別並不重要，但可能會降低挖掘方法的效能，影響最終結果。這些值可以看作同一潛在值的隨機變差。因此，有時候對變數值進行平整處理。

很多簡單的平整方法可以計算類似測量值的平均值。

3. 差值和比率

差值和比率可以改進對目標的描述，尤其是在將它們應用於輸出特徵時。

有時候，這些轉換得到的效果要好於**乙個數的簡單初始目標描述。對於很多資料探勘方法來講，選項數量較少，可以提高演算法效率。

比率是第二種簡單的目標或者輸出特徵轉換方法，用s(t+1)/s(t)作為資料探勘過程的輸出代替絕對值s(t+1),意味著特徵鎮的增減量也能提高整個資料探勘過程的效能。

差值和比率轉換不僅對輸出特徵有用，對輸入特徵也同樣有用。它們可作為乙個特徵的時間變化或用作不同輸入特徵的合成。

不存在普遍使用的資料轉換方法。最終注意的是最終表現。

資料探勘之資料準備 原始資料的轉換