關於代價敏感隨機森林的總結

一.摘要

1.降低分類器複雜度，提高少數類識別率，提出代價敏感隨機森林

2.隨機森林為框架，bagging平衡資料，在基分類器屬性**度量以及評價函式中引入誤分類和測試雙重代價

3.在少數類識別上，比rf，敏誤分類rf有更大的優勢

二.背景

1.針對不平衡分類問題，有人提出了平衡隨機森林（bagging階段採用欠取樣方法平衡資料）和權重隨機森林（構建決策樹的過程引入權重因素）

三.代價敏感學習

1.turney將代價歸納為9種型別

2.代價矩陣：

1）c(i,j)：將j類別誤分類到i

2）給定代價矩陣，在李彤貝葉斯風險準則可以計算x唄分類為i的最小期望代價

3）代價敏感分類目的：以最小誤分類代價建立模型

3.代價敏感隨機森林：

1）兩個階段：bagging和產生不剪枝決策樹（每個結點的**屬性不是在整個特徵空間計算，是固定乙個屬性特徵數量k，每次**時，從特徵集中隨機有放回的取樣k個屬性，在此k個屬性上計算最佳**屬性）

2）在gini指數的計算中引入代價因子（但僅考慮了誤分類代價，未考慮測試代價）

4.演算法描述：

1）bagging獲得bootstrap資料集

2）對每個資料集：

a）分別計算各屬性與類別的相關度，獲得測試代價

b）建立不剪枝的cart決策樹，修改cart決策樹的屬性**計算方式

隨機森林的「隨機」在哪？

在機器學習中，隨機森林是乙個包含多個決策樹的分類器，並且其輸出的類別是由個別樹輸出的類別的眾數而定。根據下列演算法而建造每棵樹在構建隨機森林時，需要做到兩個方面資料的隨機性選取，以及待選特徵的隨機選取，來消除過擬合問題。首先，從原始的資料集中採取有放回的抽樣，構造子資料集，子資料集的資料量是和原...

隨機森林知識點總結

隨機森林的隨機是在構建樹時對訓練資料點進行隨機抽樣，分割節點時，考慮特徵的隨機子集。隨機森林由決策樹組成，決策樹實際上是將空間用超平面進行劃分的一種方法，每次分割的時候，都將當前的空間一分為二隨機森林生成的樹是完全生長的，便於計算每個特徵的重要程度。隨機森林思想是構建優秀的樹，優秀的樹需要優秀的特...

隨機森林python引數隨機森林的引數說明

a.max features 隨機森林允許單個決策樹使用特徵的最大數量。python為最大特徵數提供了多個可選項。下面是其中的幾個 auto none 簡單地選取所有特徵，每顆樹都可以利用他們。這種情況下，每顆樹都沒有任何的限制。sqrt 此選項是每顆子樹可以利用總特徵數的平方根個。例如，如果變數 ...

關於代價敏感隨機森林的總結

隨機森林的「隨機」在哪？

隨機森林知識點總結

隨機森林python引數 隨機森林的引數說明

相關推薦

隨機森林python引數隨機森林的引數說明