資料離散化與資料概化

2021-06-20 23:27:34 字數 807 閱讀 1282

離散化指把連續型資料切分為若干「段」,也稱bin,是資料分析中常用的手段。切分的原則有等距,等頻,優化,或根據資料特點而定。在營銷資料探勘中,離散化得到普遍採用。究其原因,有這樣幾點:

①演算法需要。例如決策樹,*****bayes等演算法本身不能直接使用連續型變數,連續型資料只有經離散處理後才能進入演算法引擎。這一點在使用具體軟體時可能不明顯。因為大多數資料探勘軟體內已經內建了離散化處理程式,所以從使用介面看,軟體可以接納任何形式的資料。但實際上,在運算決策樹或*****bayes模型前,軟體都要在後台對資料先作預處理。

②離散化可以有效地克服資料中隱藏的缺陷:使模型結果更加穩定。例如,資料中的極端值是影響模型效果的乙個重要因素。極端值導致模型引數過高或過低,或導致模型被虛假現象「迷惑」,把原來不存在的關係作為重要模式來學習。而離散化,尤其是等距離散,可以有效地減弱極端值和異常值的影響,

③有利於對非線性關係進行診斷和描述:對連續型資料進行離散處理後,自變數和目標變數之間的關係變得清晰化。如果兩者之間是非線性關係,可以重新定義離散後變數每段的取值,如採取0,1的形式, 由乙個變數派生為多個啞變數,分別確定每段和目標變數間的聯絡。這樣做,雖然減少了模型的自由度,但可以大大提高模型的靈活度。

概念分層:

1 分箱

2 直方圖分析

3 基於熵的離散化

4 基於x2分析的區間合併

5 聚類分析

6 通過直觀劃分離散化

離散資料的概化

1 由使用者或專家在模式級顯示地說明屬性的部分序

2 通過顯示資料分組說明分層結構的一部分

3 說明屬性集但不說明他們的偏序

4 只說明部分屬性集

資料離散化

離散化有兩種方法 第一種,先看一段 const int n 1e5 7 int t n a n int main 在這段 中,a經過離散,範圍就變成了m。解釋一下,unique是c 自帶的乙個函式,表示對乙個數列去重,然後返回不重複的元素個數,當然在後面要減去首位址。那麼這種離散化對於有重複元素的數...

資料離散化

一 概述 資料離散化是乙個非常重要的思想。為什麼要離散化?當以權值為下標的時候,有時候值太大,存不下。所以把要離散化的每乙個陣列裡面的數對映到另乙個值小一點的陣列裡面去。打個比方,某個題目告訴你有10 4個數,每個數大小不超過10 10,要你對這些數進行操作,那麼肯定不能直接開10 10大小的陣列,...

資料離散化

今天執行 資料離散化 部分 時出錯,環境python3.6 pycharm,網上各種查詢資料後發現原 主要是三個地方需要修改 下面紅色部分,原有問題 被注釋掉了 修改並新增了部分注釋。coding utf 8 資料規範化 import pandas as pd datafile data discr...