隨機森林 EM HMM LDA

本篇簡單介紹這些概念。

隨機森林（random forest）是一種分類和回歸演算法，它包含了多個決策樹，形成乙個森林，隨機森林的類別是所有決策樹分類回歸結果的眾數決定。

由於它優點很多，適應比較廣泛.

1、能夠處理高維資料，不用做特徵選擇，自動選出那些特徵重要。

2、訓練速度快，分類精度高。

3、能檢測到特徵之間的相互影響。

4、不會產生過擬合。

期望最大化（expectation-maximization），也叫最大似然估計。它是一種引數估計方法。

基本思想是：引數的取值應該是使隨機樣本出現的概率最大。因此如果我們知道樣樣本的概率分布，就可以通過求使概率分布最大的引數值為最終取值。

參考文章1，已知100個男生的身高分布概率，當不知道他們的均值和方差，通過最大似然估計認為，均值和方差應該是使這個概率分布最大。

最大似然估計函式如下：

如果是連乘形式，可以求對數簡化為相加形式：

求解可以是求導數為0，即牛頓法或者梯度下降法（計算機中使用）。

hmm，隱馬爾科夫模型。

hmm在自然語言處理領域應用比較廣泛，如漢語分詞，詞性標註，語音識別。

參考乙個經典的ｈｍｍ例子，見下圖。

hmm能解決三個基本問題：

1、根據觀測序列和模型引數，求模型引數已知條件下的觀測序列後驗概率。

2、求觀測序列已知情況下的狀態序列最合理取值。

3、如何調整模型引數，使觀測序列後驗概率取值最大。

lda（latent dirichlet allocation）叫主題模型，應用在影象分類、文字分類、主題詞抽取。

是乙個三層貝葉斯概率模型，包含詞、主題、文件。

可以解決矩陣稀疏的問題。

是最簡單的話題模型（topic model），話題模型就是發現大量文件集合的主題的演算法。

可以判斷兩個文件的相似性和距離。是基於主題模型的語義挖掘技術，能區別兩篇文章在語義上的區別，而非詞頻的區別。

參考文章

1、2、介紹）

4、5、

6、與tf-idf的區別）

隨機森林隨機三

2018年7月22日陣雨感冒發燒喉嚨疼，只因為一杯正常冰的奶蓋！以後得少喝加冰的東西了.前面說的是整合學習的兩種形式，這跟隨機森林有啥關係呢？隨機森林是bagging的乙個擴充套件變體.簡單的來說，當bagging演算法中的base learner為決策樹並在訓練決策樹的過程中加入隨機屬性選擇，...

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的中提到的新的機器學習演算法，可以用來做分類，聚類，回歸，和生存分析，這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林演算法是通過訓練多個決策樹，生成模型，然...

理解隨機森林

理解隨機森林隨機森林利用隨機的方式將許多決策樹組合成乙個森林，每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分隨機選擇樣本隨機選擇特徵構建決策樹隨機森林投票分類。給定乙個訓練樣本集，數量為n，我們使用有放回取樣到n個樣本，...

隨機森林 EM HMM LDA

隨機森林隨機 三

隨機森林演算法

理解隨機森林

相關推薦

隨機森林隨機三