資料探勘學習筆記(二)C4 5

2021-07-02 11:58:45 字數 1480 閱讀 9633

一:概念

c4.5演算法是機器學習和資料探勘領域中的一整套用於處理分類問題的演算法。

是有監督學習型別的演算法,即:給定乙個資料集,所有例項都用一組屬性、引數來描述,每個例項都僅屬於乙個類別,通過在給定資料集上學習得到乙個從屬性到類別的對映,進

而可以利用這個對映來分類新的未知例項。

二:演算法過程

首先,用根節點表示給定的資料集;

然後,從根節點開始在每個節點上測試乙個特定的屬性,把節點資料集劃分成更小的子集,並用子樹表示;迴圈此過程;

最後,得到每個子集都是純淨的,即,子集中的所有例項都屬於同乙個類別,此時樹停止生長。

三:特徵選取

c4.5演算法使用增益(gain)、增益率(gain ratio)等資訊理論準則來對資料集進行選擇。

gain(a)是指屬性a的值而導致的熵的期望壓縮,或是定義為,執行乙個測試所導致的類別分布的熵的減少量。(感覺這描述太學術了,其實就是執行一次分類之後,整個資料集

變得規則和整齊一些了,資料集的混亂程度減小了)。貪心演算法+深度優先搜尋,計算遍歷每個屬性的資訊增益。所以會生成乙個完全的的決策樹。

鑑於增益準則的乙個缺陷,過於偏向選擇具有更多輸出結果的測試,選擇最高資訊增益作為測試屬性,所以提出了乙個用資訊增益率來校正這一負面效應。

gainratio(a)=gain(a)/entropy(a);

四:演算法特性

決策樹剪枝:為了避免過度擬合訓練資料,所以必須對樹進行剪枝。這裡其實還應考慮到,資料集中的雜訊資料,也被加入到了決策樹當中,因此剪枝階段的任務就是利用統計學

方法,去掉最不可靠、可能是雜訊的一些枝條。

當然也要防止過分剪枝,這裡是針對資料集稀疏時的情況。

剪枝方法:先剪枝和後剪枝

先剪枝(pre-pruning)在建樹過程中,當滿足一定條件,如特徵引數gain或是gainratio達到某個預先設定的閾值時,節點不在繼續**,這時就把這個節點所有資料歸為同類,

取這個子集中平率最大的類作為此類的類別標識。或是儲存他們的概率分布函式。

後剪枝(pos-pruning)在完全建樹的過程之後,用乙個測試資料集合(ajusting set)來做測試用例項,然後從葉子剪枝開始,如果剪枝過後,測試用例的準確率沒有降低,那麼

就不保留這個葉子,繼續下乙個葉子的剪枝試驗,最終形成一顆錯誤率盡可能小的決策樹。

缺失值處理:

1)忽略訓練資料及上在屬性a上沒有值的例項。2)用最常用的值或者均值代替3)選取獨特的新值來代替他4)直接用概率最大的那個例項集合代替這個子集的類別;

五:總結

為了確認分類器的最終版本,必須使用交叉驗證之類的嚴格評估過程。

公式在這裡,方便查閱,時刻結合著物理意義來理解公式。比如資訊熵的減少,混亂程度的減少等等~

資料探勘 C4 5演算法

c4.5演算法是機器學習和資料探勘領域中的一整套用於處理分類問題的演算法。該演算法是有監督學習型別的。計算公式 樣本資料 outlook temperature humidity windy playgolf?sunny 8585 false nosunny 8090 true noovercast...

資料探勘入門演算法C4 5

c4.5是在id3演算法的基礎上發展而來的,是對id3演算法的一種優化。其採用資訊增益率作為選擇 屬性的標準,而id3是以資訊增益為標準。這是根本的不同之處,也是優化所在。c4.5相對於id3的改進包括 通過資訊增益率選擇 屬性,克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為 屬...

C4 5演算法(資料探勘經典分類演算法)

統計好樣本集s,屬性集a,分別求出屬性集中每個屬性的資訊增益率,選中增益率最大的屬性p,假設p總有n種情況的取值 連續變數要離散化 那麼分別統計好第i種情況時樣本集si和除去p的屬性集pi,生成相對應的子樹。主要重點有 資訊增益率的計算 事後剪枝使用悲觀錯誤率衡量 樹的建造 分治思想 等。1 讀取檔...