隨機森林 EM HMM LDA

2021-07-11 23:44:38 字數 1238 閱讀 4698

本篇簡單介紹這些概念。

隨機森林(random forest)是一種分類和回歸演算法,它包含了多個決策樹,形成乙個森林,隨機森林的類別是所有決策樹分類回歸結果的眾數決定。

由於它優點很多,適應比較廣泛.

1、能夠處理高維資料,不用做特徵選擇,自動選出那些特徵重要。

2、訓練速度快,分類精度高。

3、能檢測到特徵之間的相互影響。

4、不會產生過擬合。

期望最大化(expectation-maximization),也叫最大似然估計。它是一種引數估計方法。

基本思想是:引數的取值應該是使隨機樣本出現的概率最大。因此如果我們知道樣樣本的概率分布,就可以通過求使概率分布最大的引數值為最終取值。

參考文章1,已知100個男生的身高分布概率,當不知道他們的均值和方差,通過最大似然估計認為,均值和方差應該是使這個概率分布最大。

最大似然估計函式如下:

如果是連乘形式,可以求對數簡化為相加形式:

求解可以是求導數為0,即牛頓法或者梯度下降法(計算機中使用)。

hmm,隱馬爾科夫模型。

hmm在自然語言處理領域應用比較廣泛,如漢語分詞,詞性標註,語音識別。

參考乙個經典的hmm例子,見下圖。

hmm能解決三個基本問題:

1、根據觀測序列和模型引數,求模型引數已知條件下的觀測序列後驗概率。

2、求觀測序列已知情況下的狀態序列最合理取值。

3、如何調整模型引數,使觀測序列後驗概率取值最大。

lda(latent dirichlet allocation)叫主題模型,應用在影象分類、文字分類、主題詞抽取。

是乙個三層貝葉斯概率模型,包含詞、主題、文件。

可以解決矩陣稀疏的問題。

是最簡單的話題模型(topic model),話題模型就是發現大量文件集合的主題的演算法。

可以判斷兩個文件的相似性和距離。是基於主題模型的語義挖掘技術,能區別兩篇文章在語義上的區別,而非詞頻的區別。

參考文章

1、2、介紹)

4、5、

6、與tf-idf的區別)

隨機森林隨機 三

2018年7月22日 陣雨 感冒發燒喉嚨疼,只因為一杯正常冰的奶蓋!以後得少喝加冰的東西了.前面說的是整合學習的兩種形式,這跟隨機森林有啥關係呢?隨機森林是bagging的乙個擴充套件變體.簡單的來說,當bagging演算法中的base learner為決策樹並在訓練決策樹的過程中加入隨機屬性選擇,...

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...

理解隨機森林

理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,...