機器學習筆記（4）Tree Model

1.熵：一種事物的不確定性被稱為熵（該挑什麼樣的西瓜，具有不確定性）

2.資訊：消除不確定性的事物如調整概率（根據西瓜的顏色、條紋等特徵增大判斷的準確率）、排除干擾，也有可能直接確定情況（賣瓜人：切開不甜不要錢）

3.噪音：不能消除某人對某件事情的不確定性

4.資料：資訊+噪音（去買瓜時所有看到的可為買瓜做出的參考與聽到的包括老闆叫賣聲在內的整體）

5.熵的度量：先明確所謂的度量都是指確定一套統一的標準，然後將需要度量的事物皆轉化成此統一標準。熵的度量：我的不確定性相當於拋幾次硬幣的不確定性熵的單位是bit

5.1均勻分布下：m個等概率不同的情況，相當於拋n次硬幣那麼熵就等於n，求解時

5.2一般分布下：相當於將不確定性轉變為確定性之間的減法，注意公式前的等號，相當於pk*log(1/pk)

6.資訊的度量：得知資訊前後熵的差額，就是資訊的量，資訊和熵是同等級的概念，熵量和資訊量是同等級概念

7.我們來舉個例子：乙個選擇題有abcd這樣4個選項，熵為

題外話：ml與dm果然是一脈相承，挑瓜計算資訊熵的過程中真的就發現了什麼特徵對於挑瓜是重要的以下是樹模型的訓練步驟

1.計算根節點的資訊熵

2.每個特徵下的屬性分別計算一下資訊熵，各屬性之間通過比例加權得到該特徵的資訊熵

3.根節點資訊熵減各特徵的資訊熵，獲得資訊量最大的特徵作為第一次分割的節點特徵

傳統單模型的數模型（可直接稱為決策樹）有id3，c4.5，cart三種

id3：直接使用傳統意義上的資訊增益來實現

c4.5：使用資訊增益率，直接使用資訊增益對數目較多的屬性有所偏好，所以除以一次該屬性的比例，作為懲罰，所以c4.5具有一定的處理類別不平衡樣本的能力

cart：cart是「回歸與分類數」的簡稱，cart是分類樹時以gini指數作為選擇最優屬性特徵的依據，cart是回歸樹時以最小方差（又說最小二乘）為依據

1.id3、c4.5分類都是一氣呵成的使用資料集計算類訓練方式

2.決策樹最常用的訓練方法是cart（分類與回歸）：進行分類任務時---採用基尼係數的大小度量特徵各個劃分點的優劣。進行回歸任務時---採用和方差度量，度量目標是對於劃分特徵a，對應劃分點s兩邊的資料集d1和d2，求出使d1和d2各自集合的均方差最小，同時d1和d2的均方差之和最小。表示式為：

其中，c1為d1的樣本輸出均值，c2為d2的樣本輸出均值。對於決策樹建立後做**的方式，cart分類樹採用葉子節點裡概率最大的類別作為當前節點的**類別。回歸樹輸出不是類別，採用葉子節點的均值或者中位數來**輸出結果，cart是二叉樹

參考：

3.多變數決策樹：使用幾個變數的線性組合來做決策進行劃分，會使得邊界不再平行而是成為「斜邊界」，「斜邊界」對資料的泛化性會非常好。

樹模型中，驗證集是用來剪枝的

預剪枝：計算之前通過某種方式判斷這個分支到底值不值得分：判斷依靠乙個特徵**後，準確率是否下降了，如果沒下降則這一支沒有意義

後剪枝：模型生成後從後向前，將不提公升精度的分支剪裁