C5 0演算法學習

2021-07-30 13:01:33 字數 1729 閱讀 5312

c5.0是決策樹模型中的演算法,79年由j r quinlan發展,並提出了id3演算法,主要針對離散型屬性資料,其後又不斷的改進,形成c4.5,它在id3基礎上增加了隊連續屬性的離散化。c5.0是c4.5應用於大資料集上的分類演算法,主要在執行效率和記憶體使用方面進行了改進。

c4.5演算法是id3演算法的修訂版,採用gainratio來加以改進方法,選取有最大gainratio的分割變數作為準則,避免id3演算法過度配適的問題。

c5.0演算法則是c4.5演算法的修訂版,適用於處理大資料集,採用boosting方式提高模型準確率,又稱為boostingtrees,在軟體上計算速度比較快,占用的記憶體資源較少。

決策樹模型,也稱規則推理模型。通過對訓練樣本的學習,建立分類規則;依據分類規則,實現對新樣本的分類;屬於有指導(監督)式的學習方法,有兩類變數:目標變數(輸出變數),屬性變數(輸入變數)。

決策樹模型與一般統計分類模型的主要區別:決策樹的分類是基於邏輯的,一般統計分類模型是基於非邏輯的。

常見的演算法有chaid、cart、quest和c5.0。對於每乙個決策要求分成的組之間的「差異」最大。各種決策樹演算法之間的主要區別就是對這個「差異」衡量方式的區別。

決策樹很擅長處理非數值型資料,這與神經網路智慧型處理數值型資料比較而言,就免去了很多資料預處理工作。

c5.0是經典的決策樹模型演算法之一,可生成多分支的決策樹,目標變數為分類變數,使用c5.0演算法可以生成決策樹或者規則集。c5.0模型根據能偶帶來的最大資訊增益的字段拆分樣本。第一次拆分確定的樣本子集隨後再次拆分,通常是根據另乙個字段進行拆分,這一過程重複進行指導樣本子集不能在被拆分為止。最後,重新緝拿眼最低層次的拆分,哪些對模型值沒有顯著貢獻的樣本子集被提出或者修剪。

c5.0優點:

c5.0模型在面對資料遺漏和輸入字段很多的問題時非常穩健;

c5.0模型比一些其他型別的模型易於理解,模型退出的規則有非常直觀的解釋;

c5.0也提供強大技術以提高分類的精度。

c5.0演算法

c5.0演算法選擇分支變數的依據:以資訊熵的下降速度作為確定最佳分支變數和分割閥值的依據。資訊熵的下降意味著資訊的不確定性下降。

資訊熵:資訊量的數學期望,是心願發出資訊前的平均不確定性,也稱先驗熵。 資訊

ui(i

=1,2,…r)

的發生概率p(

ui)組成信源數學模型,åp

(ui)

=1;

資訊量(

單位是bit

,對的底數取2):

資訊熵:先驗不確定性:

•資訊熵h(u

)的性質

•h(u)=0

時,表示只存在唯一的可能性,不存在不確定性

•如果信源的

k個訊號有相同的發出概率,即所有的ui

有p(ui

)=1/k,

h(u)

達到最大,不確定性最大

•p(ui

)差別越小,h(

u)就越大;p(u

i)差別大,h(

u)就越小

決策樹中熵的應用:

設s是乙個樣本集合,目標變數c有k個分類,freq(ci,s)表示屬於ci類的樣本數,|s|表示樣本幾何s的樣本數。則幾何s的資訊熵定義為:

如果某屬性變數t,有n個分類,則屬性變數t引入後的條件熵定義為:

屬性變數t帶來的資訊增益為:

c5.0演算法示例:

該組樣本的熵:

關於t1的條件熵為:

t1帶來的資訊增益為:

小白學資料分析/

C 5 0中新增特性

c 5.0隨著visualstudio 2012一起正式發布了,讓我們來看看c 5.0中增加了哪些功能。1.非同步程式設計 在.net 4.5中,通過async和await兩個關鍵字,引入了一種新的基於任務的非同步程式設計模型 tap 在這種方式下,可以通過類似同步方式編寫非同步 極大簡化了非同步程...

C 5 0五大新特性

第一 繫結運算子,這個只是簡化了資料繫結,跟asp.net mvc3不斷改進一樣,其實不是什麼亮點改進。csharp view plain copy combobox1.text textbox1.text 將文字框的內容繫結到下拉框。第二 帶引數的泛型建構函式 這個的加入給一些設計增加了強大功能,...

C 5 0五大新特性

第一 繫結運算子,這個只是簡化了資料繫結,跟asp.net mvc3不斷改進一樣,其實不是什麼亮點改進。csharp view plain copy combobox1.text textbox1.text 將文字框的內容繫結到下拉框。第二 帶引數的泛型建構函式 這個的加入給一些設計增加了強大功能,...