決策樹學習歸納 STAR20180303

2021-08-16 01:34:15 字數 953 閱讀 6307

¥key:

資訊熵:

熵(entropy)概念:

資訊和抽象,如何度量?

2023年,夏農提出了 」資訊熵(entropy)「的概念

一條資訊的資訊量大小和它的不確定性有直接的關係,要搞清楚一件非常非常不確定的事情,或者          

是我們一無所知的事情,需要了解大量資訊==>資訊量的度量就等於不確定性的多少

例子:猜世界盃冠軍,假如一無所知,猜多少次?

每個隊奪冠的機率不是相等的

位元(bit)來衡量資訊的多少

變數的不確定性越大,熵也就越大

決策樹歸納演算法 (id3)

1970-1980, j.ross. quinlan, id3演算法

選擇屬性判斷結點

資訊獲取量(information gain):gain(a) = info(d) - infor_a(d)

通過a來作為節點分類獲取了多少資訊

類似,gain(income) = 0.029, gain(student) = 0.151, gain(credit_rating)=0.048

所以,選擇age作為第乙個根節點

¥problem:

①py取執行目錄:

os.getcwd()

②注釋的快捷鍵:

塊注釋/取消

ctrl+4/5

③python2 to 3:2to3 -w [file]

ps.管理員執行cmd

④b = reshape(a,size)是指返回乙個和a元素相同的n維陣列,但是由向量size來決定重構陣列維數的大小,prod(size(b))的數量值必須和prod(size(a))的保持一致。

⑤通過help來獲得函式的使用方法

⑥dot轉換pdf:dot -tpdf allelectronicinformationgainori.dot -o star.pdf

決策樹歸納

決策樹歸納是從有類標號的訓練樣本中學習決策樹,決策樹是一種類似於流程圖的樹結構,其中,每個內部結點 非樹葉結點 表示在乙個屬性上的測試,每個分枝代表該測試的乙個輸出,而每個樹葉結點 或終端結點 存放乙個類標號。id3 c4.5 cart都採用貪心 即非回溯的 方法,只考慮當前純度差最大的情況作為分割...

決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。決策樹通過把例項從艮節點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每乙個結點指定了對例項的某個屬性的測試,並且該結點的每乙個後繼分支對應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開...

決策樹學習

決策樹是一種在機器學習中常見的學習演算法。決策樹是一種基於樹結構來進行決策分類和回歸的,在每一步的決策過程中根據屬性值來進行劃分,決策過程中提出的每個判定問題就是對某乙個屬性的測試。一般的,乙個決策樹通常包含乙個根節點,若干的葉子節點和內部節點,葉子節點對應於最後的決策結果,其他每一節點對應於每乙個...