《機器學習技法》第十講 Random Forest

2021-06-28 17:06:52 字數 3114 閱讀 6850

bagging:通過平均來降低變化量。

decision tree:對不同的資料敏感,變化量大。

aggregation of 

aggregation

:用bagging的方式把一堆decision tree結合起來。

1、並行化、高效

2、繼承cart的優點

3、消除完全生長cart的overfit缺點

得到有差異性的g:

隨機抽取dataset(bagging)

隨機抽取feature(低維投影,特徵子空間)

rf = bagging + 隨機特徵cart

特徵 = 投影矩陣*原始特徵

投影到原始方向:特徵隨機抽取

投影到任意方向:特徵結合後隨機抽取,more powerful。

原始的rf考慮在

cart每一次分支時

將特徵結合起來後低維投影。

rf = bagging + 隨機結合特徵cart

課後習題:

perceptron,特徵加權後切分

decision stump,單個特徵切分,相當於水平或垂直切分

random-combination,特徵結合後

投影,不只是垂直、水平,還可能斜的切分

out-of-bag(oob) example:沒有被bagging過程選中的資料

有多少oob example:n*(1/e)

oob資料可以用來交叉驗證g

bagging的過程可以實現自我交叉驗證:oob error

oob error做模型選擇

不需要切分訓練集和驗證集,不需要做兩次訓練

有時候想去除:

冗餘的特徵、

無關的特徵

特徵選擇(事物的雙面性,好處壞處相對應,關鍵是特徵選擇的好壞)

好處:高效、更一般化、更具有解釋性

壞處:選取特徵的計算量大、過擬合、錯誤的解釋

decision tree自帶特徵選擇。

根據重要性選取特徵:取top importance

線性模型的importance:w向量(這時x應該要歸一化才能衡量吧!)

rf的特徵選擇:置換檢驗

random test:如果是重要的特徵,那麼增加random values,表現會下降

random values:

1、插入均勻分布、高斯分布等資料。缺陷:改變原有特徵的資料分布,表現差距=噪音影響+分布影響(不要)

2、boostrap(在原有資料上抽樣),

置換檢驗(

在原有資料上

重新隨機排列)。分布接近一致,資料亂掉了。 特徵

i的重要性 = 原始資料的表現 - 特徵

i資料置換後的表現

原始rf特徵重要性衡量

一種方法:

(1)原始資料,訓練g,在g上用oob error衡量表現performance(d)

(2)原始資料上置換

特徵i的

資料,重新訓練g(p)

,在g(p)

上用oob error衡量表現?performance(d

(p))

(3)importance(i) =  

performance(d) - 

performance(d

(p))

更簡單的方法:

(1)原始資料,訓練g,

在g上用oob error衡量表現

eoob(g)

(2)oob example上置換

特徵i的

oob資料,

在g上用

oob error衡量表現e(p)

oob(g)

(3)importance(i) =  e

oob(g)

- e(p)

oob(g)

隨機特徵結合

cart

樹(左圖)

bagging的一棵

隨機特徵結合

cart

樹(中圖,bagging選取中的點比較大)

t棵樹的rf(bagging + 

隨機特徵結合

cart

樹)(右圖)

簡單的資料集

樹變多,邊界

變得更加平滑、

更大。

複雜的資料集

很容易就得到了還不錯的非線性模型

有噪音的資料集

樹多了後通過投票把噪音消除,得到穩定的結果

樹越多,表現越好

kddcup例子:rf的隨機性使得表現不穩定,通過增加樹的棵樹來使得它更穩定

rf的缺點:rf是乙個隨機性的模型,如果隨機的過程還沒有到達相對穩定的狀態,或者是對結果的一點點變化很敏感,那麼會受隨機過程的影響。

實物上使用rf,要看g是否達到穩定,從而決定是否需要更多的樹。

Stanford機器學習 第十講 資料降維

第十講.降維 dimensionality reduction 一 為什麼要降維?二 主成分分析principal component analysis pca 三 pca 演算法流程 四 從壓縮資料中恢復原資料 五 怎樣決定降維個數 主成分個數 六 應用pca進行降維的建議 本章主要講述應用pca...

機器學習十講01

2021.1.26 概論人工智慧 機器學習 深度學習 機器學習問題 資料 聚類 分類 異常值分析 機器學習的基本方法 監督學習 1 資料集中的樣本帶有標籤,有明確目標。2 回歸和分類。無監督學習 1 資料集中的樣本沒有標籤,沒有明確目標。2 聚類 降維 排序 密度估計 關聯規則挖掘 強化學習 介於前...

機器學習十講 第一講

我們將機器學習定義為一組能夠自動檢測模式資料的方法,然後利用未發現的模式來 未來的資料,或者在不確定的情況下執行各種決策 例如計畫如何收集更多的資料 模型和計算能力 深度學習 gpu 分布式系統 廣泛的應用場景 營銷 廣告 金融 交通 醫療等 是指資料採集 資料清洗 資料分析和資料應用的整個流程中的...