關於代價敏感隨機森林的總結

2021-09-28 18:58:52 字數 697 閱讀 4161

一.摘要

1.降低分類器複雜度,提高少數類識別率,提出代價敏感隨機森林

2.隨機森林為框架,bagging平衡資料,在基分類器屬性**度量以及評價函式中引入誤分類和測試雙重代價

3.在少數類識別上,比rf,敏誤分類rf有更大的優勢

二.背景

1.針對不平衡分類問題,有人提出了平衡隨機森林(bagging階段採用欠取樣方法平衡資料)和權重隨機森林(構建決策樹的過程引入權重因素)

三.代價敏感學習

1.turney將代價歸納為9種型別

2.代價矩陣:

1)c(i,j):將j類別誤分類到i

2)給定代價矩陣,在李彤貝葉斯風險準則可以計算x唄分類為i的最小期望代價

3)代價敏感分類目的:以最小誤分類代價建立模型

3.代價敏感隨機森林:

1)兩個階段:bagging和產生不剪枝決策樹(每個結點的**屬性不是在整個特徵空間計算,是固定乙個屬性特徵數量k,每次**時,從特徵集中隨機有放回的取樣k個屬性,在此k個屬性上計算最佳**屬性)

2)在gini指數的計算中引入代價因子(但僅考慮了誤分類代價,未考慮測試代價)

4.演算法描述:

1)bagging獲得bootstrap資料集

2)對每個資料集:

a)分別計算各屬性與類別的相關度,獲得測試代價

b)建立不剪枝的cart決策樹,修改cart決策樹的屬性**計算方式

隨機森林的「隨機」在哪?

在機器學習中,隨機森林是乙個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。根據下列演算法而建造每棵樹 在構建隨機森林時,需要做到兩個方面 資料的隨機性選取,以及待選特徵的隨機選取,來消除過擬合問題。首先,從原始的資料集中採取有放回的抽樣,構造子資料集,子資料集的資料量是和原...

隨機森林知識點總結

隨機森林的隨機是在構建樹時對訓練資料點進行隨機抽樣,分割節點時,考慮特徵的隨機子集。隨機森林由決策樹組成,決策樹實際上是將空間用超平面進行劃分的一種方法,每次分割的時候,都將當前的空間一分為二 隨機森林生成的樹是完全生長的,便於計算每個特徵的重要程度。隨機森林思想是構建優秀的樹,優秀的樹需要優秀的特...

隨機森林python引數 隨機森林的引數說明

a.max features 隨機森林允許單個決策樹使用特徵的最大數量。python為最大特徵數提供了多個可選項。下面是其中的幾個 auto none 簡單地選取所有特徵,每顆樹都可以利用他們。這種情況下,每顆樹都沒有任何的限制。sqrt 此選項是每顆子樹可以利用總特徵數的平方根個。例如,如果變數 ...