四 分類 基本概念,決策樹與模型評估1

2021-08-31 15:53:04 字數 1497 閱讀 1548

元組(x,y):x指屬性集合,y指分類屬性

目標函式又稱為分類模型:描述性建模;**性建模

分類技術是一種根據輸入資料集建立分類模型的系統方法。

學習演算法確定分類模型;泛化能力模型

訓練集;檢驗集

分類模型效能評估:

1.正確錯誤計數(混淆矩陣)

2.錯誤率,正確率

決策樹:根結點,內部結點(屬性測試條件),葉結點(類標號)

屬性集太大,決策樹高度指數級,區域性最優決策構造具有一定準確率的次優決策樹

1.hunt演算法:(基本思想:已經確定了類別的結點不用繼續分解下去)

2.決策樹歸納的設計問題

如何**訓練記錄;如何停止分類過程

二元屬性:二元劃分

標稱屬性:二元劃分或多路劃分

序數屬性:二元劃分或多路劃分,不能違背有序性

連續屬性:測試條件選擇比較測試二元輸出;離散化策略

選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純性度量方法:

為確定測試條件的效果,需比較父節點和子女結點的不純程度。差越大,測試條件越好。

增益:

決策樹歸納採用最大化增益的測試條件,即最小化子女結點的不純性度量的加權平均。

當選擇熵作為不純度量時,熵的差就是資訊增益。

1.二元屬性的劃分

2.標量屬性的劃分

3.連續屬性的劃分

4.增益率:決策樹演算法c4.5

1.構建分類模型的非引數方法

2.np完全問題

3.計算代價小

4.決策樹容易解釋

5.學習離散值

6.避免過分擬合

7.冗餘資料不會造成影響

8.葉結點記錄少,不具統計意義:資料碎片問題設定閾值

9.子樹重複問題

10.測試條件只涉及乙個屬性:斜決策樹

11.不純度量方法影響小

決策樹 基本概念

熵計算公式 h x p xi log 2,p xi i 1,2,n 栗子1 義烏雜貨市場商品很多很混亂熵值會比較大 栗子2 蘋果專賣店只有蘋果品牌比較穩定,熵值很小 資訊增益 表示特徵x使得類y的不確定減少的程度 gini係數 2 1 14天outlook情況 outlook sunny時,熵值為0...

決策樹 結構 決策樹及其基本概念

決策樹主要知識 決策樹 決策樹 在分類問題中,表示基於特徵對例項進行分類的過程。決策樹可以認為是1.if then規則的集合 2.定義在特徵空間與類空間上的條件概率分布。決策樹優點 模型具有可讀性,分類速度快。決策樹學習與 過程 決策樹 分類決策樹描述對例項進行分類的樹形結構。由結點 node 節點...

第四章(1) 分類 決策樹

分類任務就是確定物件屬於哪個預定義的目標類 分類的屬性集可以包含連續屬性,但類標號必須是離散的,這是分類與回歸的區別,回歸的目標屬性y是連續的 分類任務就是通過學習得到乙個目標函式 分類模型 把屬性集x對映到乙個預先定義的類標號y 分類模型可以作為解釋性工具,區分不同類中的物件 未知記錄的類標號 分...