選擇多級分類 模式識別總結(3)其他分類方法

2021-10-14 17:46:04 字數 1710 閱讀 9907

介紹除了貝葉斯統計和判別模型的兩類方法外的其他分類方法:

• 1、近鄰法

直接根據訓練樣本對新樣本進行分類,是一種最簡單的分段線性分類器:把各類劃分為若干子類,以子類中心作為類別代表點, 考查新樣本到各代表點的距離並將它分到最近的代表點所代表的類。

決策規則:

已知樣本集s = ,設有 個類別即 ∈ 。 定義樣本之間的距離 , =∥ - ∥。 對未知樣本 , 其與 的距離為

則 ∈ 或 類,針對不同的應用, 距離 (⋅,⋅)有不同的定義。

k近鄰法作為最近鄰法(1近鄰法) 的推廣: 找出 的 個近鄰, 看其中多數屬於哪一類, 則把 分到哪一類。 近鄰分類器中的 是乙個重要引數, 當 取不同值時, 分類結果會有顯著不同。 另一方面, 若採用不同的距離計算方式, 則找出的「近鄰」 可能有顯著差別, 從而也會導致分類結果有顯著不同,k近鄰(knn)學習是一種常用的監督學習方法。

• 2、決策樹與隨機森林

可應用於非數量特徵,把特徵選擇和分布決策結合起來。前面介紹的所有分類方法只針對樣本特徵時數量特徵, 然而很多實際問題中描述物件可能用到非數值特徵。決策樹是非線性分類系統, 同時也是多級決策系統:分類是依次進行的直到獲得最終可以接受的型別。 按照一定的順序, 將特徵空間分為與類對應的唯一區域。決策樹學習的目的是為了產生一棵泛化能力強, 即處理未見示例能力強的決策樹(模型) 。

• 決策樹由一系列節點組成, 每個節點代表乙個特徵和相應的決策規則。 根節點代表所有樣本, 經過節點後被劃分到各個子節點中, 每個子節點再用新的特徵來進一步決策, 直到最後的葉節點。

• 決策樹的構建過程本質上就是選擇特徵和確定決策規則的過程。 一般而言, 隨著劃分過程不斷進行, 我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別, 即結點的「純度」 (purity)越來越高。

• 「資訊熵」 是度量樣本集合純度最常用的一種指標, 假定當前樣本集合 中 類樣本所佔的比例為 = 1, ⋯ , , 則 的資訊熵定義為

( ) 值最大代表樣本純度越低;值越小,純度越高。

• 若把 個樣本集 根據某一特徵 劃分成 組, 每組 有樣本 個, 則不純度減少量計算公式為

上式計算值稱為資訊增益。

• 一般而言, 資訊增益越大, 則意味著使用特徵 來進行劃分所獲得的「純度提公升」 越大。 ——分類特徵選擇方法

隨機森林就是建立很多決策樹, 組成乙個森林, 通過多棵樹投票進行決策。

•3、boosting方法

將多個分類器進行融合得到有效的分類方法,與隨機森林思想類似, boosting方法融合多個分類器進行決策來提高分類的效能。 不同的是, boosting方法不是簡單的進行投票決策, 而是通過迭代過程對分類器的輸入和輸出進行加權處理。

boosting+svm構成最有效的分類技術。

模式識別分類

摘自 模式識別導論 齊敏,李大健,郝重陽,清華大學出版社,2009.按照理論分類 統計模式識別 是定量描述的識別方法。以模式集在特徵空間中分布的類概率密度函式為基礎,對總體特徵進行研究,包括判別函式法和聚類分析法。是模式分類的經典型和基礎性技術,歷史最長,目前仍是模式識別的主要理論。句法模式識別 也...

模式識別總結

1 貝葉斯決策 分類器的設計 先驗概率和後驗概率 最小風險貝葉斯判別 2 概率密度函式估計 引數估計 貝葉斯估計 最大似然估計 非引數估計方法 3 線性判別函式 線性判別函式設計的一般步驟 線性分類器 fisher線性判別 感知準則函式 決策樹4 聚類分析 k均值方法 迭代自組織的資料分析方法 5 ...

模式識別(3) SVM分類演算法

3.1.svm演算法原理和分析 svm support vector machines 中文名字叫做支援向量機。svm也是尋找乙個超平面,使得訓練集中的點距離分類面盡可能的遠,就是讓這個分類面兩側放入空白區域最大。支援向量就是距離分類平面最近的一些樣本點,對決策面的選取有決策作用。svm訓練 cle...