資料離散化與資料概化

離散化指把連續型資料切分為若干「段」，也稱bin，是資料分析中常用的手段。切分的原則有等距，等頻，優化，或根據資料特點而定。在營銷資料探勘中，離散化得到普遍採用。究其原因，有這樣幾點：

①演算法需要。例如決策樹，*****bayes等演算法本身不能直接使用連續型變數，連續型資料只有經離散處理後才能進入演算法引擎。這一點在使用具體軟體時可能不明顯。因為大多數資料探勘軟體內已經內建了離散化處理程式，所以從使用介面看，軟體可以接納任何形式的資料。但實際上，在運算決策樹或*****bayes模型前，軟體都要在後台對資料先作預處理。

②離散化可以有效地克服資料中隱藏的缺陷：使模型結果更加穩定。例如，資料中的極端值是影響模型效果的乙個重要因素。極端值導致模型引數過高或過低，或導致模型被虛假現象「迷惑」，把原來不存在的關係作為重要模式來學習。而離散化，尤其是等距離散，可以有效地減弱極端值和異常值的影響，

③有利於對非線性關係進行診斷和描述：對連續型資料進行離散處理後，自變數和目標變數之間的關係變得清晰化。如果兩者之間是非線性關係，可以重新定義離散後變數每段的取值，如採取0，1的形式，由乙個變數派生為多個啞變數，分別確定每段和目標變數間的聯絡。這樣做，雖然減少了模型的自由度，但可以大大提高模型的靈活度。

概念分層：

1 分箱

2 直方圖分析

3 基於熵的離散化

4 基於x2分析的區間合併

5 聚類分析

6 通過直觀劃分離散化

離散資料的概化

1 由使用者或專家在模式級顯示地說明屬性的部分序

2 通過顯示資料分組說明分層結構的一部分

3 說明屬性集但不說明他們的偏序

4 只說明部分屬性集

資料離散化與資料概化

資料離散化

資料離散化

資料離散化

相關推薦