《機器學習技法》第十講 Random Forest

bagging：通過平均來降低變化量。

decision tree：對不同的資料敏感，變化量大。

aggregation of

aggregation

：用bagging的方式把一堆decision tree結合起來。

1、並行化、高效

2、繼承cart的優點

3、消除完全生長cart的overfit缺點

得到有差異性的g：

隨機抽取dataset（bagging）

隨機抽取feature（低維投影，特徵子空間）

rf = bagging + 隨機特徵cart

特徵 = 投影矩陣*原始特徵

投影到原始方向：特徵隨機抽取

投影到任意方向：特徵結合後隨機抽取，more powerful。

原始的rf考慮在

cart每一次分支時

將特徵結合起來後低維投影。

rf = bagging + 隨機結合特徵cart

課後習題：

perceptron，特徵加權後切分

decision stump，單個特徵切分，相當於水平或垂直切分

random-combination，特徵結合後

投影，不只是垂直、水平，還可能斜的切分

out-of-bag（oob） example：沒有被bagging過程選中的資料

有多少oob example：n*(1/e)

oob資料可以用來交叉驗證g

bagging的過程可以實現自我交叉驗證：oob error

oob error做模型選擇

不需要切分訓練集和驗證集，不需要做兩次訓練

有時候想去除：

冗餘的特徵、

無關的特徵

特徵選擇（事物的雙面性，好處壞處相對應，關鍵是特徵選擇的好壞）

好處：高效、更一般化、更具有解釋性

壞處：選取特徵的計算量大、過擬合、錯誤的解釋

decision tree自帶特徵選擇。

根據重要性選取特徵：取top importance

線性模型的importance：w向量（這時x應該要歸一化才能衡量吧！）

rf的特徵選擇：置換檢驗

random test：如果是重要的特徵，那麼增加random values，表現會下降

random values：

1、插入均勻分布、高斯分布等資料。缺陷：改變原有特徵的資料分布，表現差距=噪音影響+分布影響（不要）

2、boostrap（在原有資料上抽樣），

置換檢驗（

在原有資料上

重新隨機排列）。分布接近一致，資料亂掉了。特徵

i的重要性 = 原始資料的表現 - 特徵

i資料置換後的表現

原始rf特徵重要性衡量

一種方法：

(1)原始資料，訓練g，在g上用oob error衡量表現performance(d)

(2)原始資料上置換

特徵i的

資料，重新訓練g(p)

，在g(p)

上用oob error衡量表現？performance(d

(p))

(3)importance(i) =

performance(d) -

performance(d

(p))

更簡單的方法：

(1)原始資料，訓練g，

在g上用oob error衡量表現

eoob(g)

(2)oob example上置換

特徵i的

oob資料，

在g上用

oob error衡量表現e(p)

oob(g)

(3)importance(i) = e

oob(g)

- e(p)

oob(g)

隨機特徵結合

cart

樹（左圖）

bagging的一棵

隨機特徵結合

cart

樹（中圖，bagging選取中的點比較大）

t棵樹的rf（bagging +

隨機特徵結合

cart

樹）（右圖）

簡單的資料集

樹變多，邊界

變得更加平滑、

更大。

複雜的資料集

很容易就得到了還不錯的非線性模型

有噪音的資料集

樹多了後通過投票把噪音消除，得到穩定的結果

樹越多，表現越好

kddcup例子：rf的隨機性使得表現不穩定，通過增加樹的棵樹來使得它更穩定

rf的缺點：rf是乙個隨機性的模型，如果隨機的過程還沒有到達相對穩定的狀態，或者是對結果的一點點變化很敏感，那麼會受隨機過程的影響。

實物上使用rf，要看g是否達到穩定，從而決定是否需要更多的樹。

Stanford機器學習第十講資料降維

第十講.降維 dimensionality reduction 一為什麼要降維?二主成分分析principal component analysis pca 三 pca 演算法流程四從壓縮資料中恢復原資料五怎樣決定降維個數主成分個數六應用pca進行降維的建議本章主要講述應用pca...

機器學習十講01

2021.1.26 概論人工智慧機器學習深度學習機器學習問題資料聚類分類異常值分析機器學習的基本方法監督學習 1 資料集中的樣本帶有標籤，有明確目標。2 回歸和分類。無監督學習 1 資料集中的樣本沒有標籤，沒有明確目標。2 聚類降維排序密度估計關聯規則挖掘強化學習介於前...

機器學習十講第一講

我們將機器學習定義為一組能夠自動檢測模式資料的方法，然後利用未發現的模式來未來的資料，或者在不確定的情況下執行各種決策例如計畫如何收集更多的資料模型和計算能力深度學習 gpu 分布式系統廣泛的應用場景營銷廣告金融交通醫療等是指資料採集資料清洗資料分析和資料應用的整個流程中的...

《機器學習技法》第十講 Random Forest

Stanford機器學習 第十講 資料降維

機器學習十講01

機器學習十講 第一講

相關推薦

Stanford機器學習第十講資料降維

機器學習十講第一講