C5 0演算法學習

c5.0是決策樹模型中的演算法，79年由j r quinlan發展，並提出了id3演算法，主要針對離散型屬性資料，其後又不斷的改進，形成c4.5，它在id3基礎上增加了隊連續屬性的離散化。c5.0是c4.5應用於大資料集上的分類演算法，主要在執行效率和記憶體使用方面進行了改進。

c4.5演算法是id3演算法的修訂版，採用gainratio來加以改進方法，選取有最大gainratio的分割變數作為準則，避免id3演算法過度配適的問題。

c5.0演算法則是c4.5演算法的修訂版，適用於處理大資料集，採用boosting方式提高模型準確率，又稱為boostingtrees，在軟體上計算速度比較快，占用的記憶體資源較少。

決策樹模型，也稱規則推理模型。通過對訓練樣本的學習，建立分類規則；依據分類規則，實現對新樣本的分類；屬於有指導（監督）式的學習方法，有兩類變數：目標變數（輸出變數），屬性變數（輸入變數）。

決策樹模型與一般統計分類模型的主要區別：決策樹的分類是基於邏輯的，一般統計分類模型是基於非邏輯的。

常見的演算法有chaid、cart、quest和c5.0。對於每乙個決策要求分成的組之間的「差異」最大。各種決策樹演算法之間的主要區別就是對這個「差異」衡量方式的區別。

決策樹很擅長處理非數值型資料，這與神經網路智慧型處理數值型資料比較而言，就免去了很多資料預處理工作。

c5.0是經典的決策樹模型演算法之一，可生成多分支的決策樹，目標變數為分類變數，使用c5.0演算法可以生成決策樹或者規則集。c5.0模型根據能偶帶來的最大資訊增益的字段拆分樣本。第一次拆分確定的樣本子集隨後再次拆分，通常是根據另乙個字段進行拆分，這一過程重複進行指導樣本子集不能在被拆分為止。最後，重新緝拿眼最低層次的拆分，哪些對模型值沒有顯著貢獻的樣本子集被提出或者修剪。

c5.0優點：

c5.0模型在面對資料遺漏和輸入字段很多的問題時非常穩健；

c5.0模型比一些其他型別的模型易於理解，模型退出的規則有非常直觀的解釋；

c5.0也提供強大技術以提高分類的精度。

c5.0演算法

c5.0演算法選擇分支變數的依據：以資訊熵的下降速度作為確定最佳分支變數和分割閥值的依據。資訊熵的下降意味著資訊的不確定性下降。

資訊熵：資訊量的數學期望，是心願發出資訊前的平均不確定性，也稱先驗熵。資訊

ui(i

=1,2,…r)

的發生概率p(

ui)組成信源數學模型，åp

(ui)

＝1；

資訊量(

單位是bit

，對的底數取2)：

資訊熵：先驗不確定性：

•資訊熵h(u

)的性質

•h(u)=0

時，表示只存在唯一的可能性，不存在不確定性

•如果信源的

k個訊號有相同的發出概率，即所有的ui

有p(ui

)=1/k，

h(u)

達到最大，不確定性最大

•p(ui

)差別越小，h(

u)就越大；p(u

i)差別大，h(

u)就越小

決策樹中熵的應用：

設s是乙個樣本集合，目標變數c有k個分類，freq(ci，s)表示屬於ci類的樣本數，|s|表示樣本幾何s的樣本數。則幾何s的資訊熵定義為：

如果某屬性變數t,有n個分類，則屬性變數t引入後的條件熵定義為：

屬性變數t帶來的資訊增益為：

c5.0演算法示例：

該組樣本的熵：

關於t1的條件熵為：

t1帶來的資訊增益為：

小白學資料分析/

C5 0演算法學習

C 5 0中新增特性

C 5 0五大新特性

C 5 0五大新特性

C5 0演算法學習

C 5 0中新增特性

C 5 0五大新特性

C 5 0五大新特性

相關推薦