資料探勘決策樹

分類是資料探勘的乙個非常重要的主題，現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧，才能對不同的事物、場景採取不同的應對方式。

資料分類可以看做是乙個兩步的過程。第一步是學習過程，我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練，如果訓練元組中已經包含了各樣本的類標識號，也就是說知道了樣本的類別，則稱為監督學習，否則是無監督學習，也稱為聚類。

我們可以吧第一步看作是建立乙個對映，y=f(x)，x是樣本，y則是輸出的類標識號。這個對映可以使一系列的規則，乙個數學函式，或者是決策樹，亦或是難以解釋的神經網路或其他。當然，決策樹可以轉化為規則，神經網路經過簡化或也可以，這樣可以給人呈現一種比較直觀的方式。

第二步就是分類，使用學習好了的分類器對位置類標識號的資料進行分類。那麼如何才能評判分類器的好壞，也就是準確率呢？我們使用檢驗元組。檢驗元組是指從一般資料集（非訓練資料集）中選取的，但是其類標識號已知。準確率accuracy是指正確分類佔總檢驗元組的比重。

在使用檢驗元組得到乙個能接受的正確率之後，分類器就可以用在對未知資料的分類上了。

訓練集和檢驗集如何選取應該有一定的指導原則，因為訓練集對分類器的準確率起到了非常重要的作用，這方面我還沒有去找過。另外乙個還需要花些時間，非常重要的問題就是特徵子集的選擇，也叫屬性子集選擇。

用決策樹歸納分類

決策樹不需要任何引數的設定和領域知識（也許屬性選擇還是需要的），非常適合於探測式知識發現，並且可以處理高維資料（指的是屬性非常多的資料），表達直觀易懂，使用廣泛。決策樹是許多商業歸納系統的基礎。

決策樹歸納的基本演算法都採用的貪心演算法，採用自頂向下遞迴的分治方式構造。演算法最重要的是選擇當下"最好"的splitting_criteria，如何評判最好的呢？書中介紹了好幾種方法，基本上都要用到概率統計裡面的知識，下次再總結吧。另外注意一點是如果允許多路劃分並且是離散的，則splitting_criteria中的屬性應該從當前的屬性列表中去掉。

我今天知識自己實現了collective intelligence中的例子，想著這幾天實現資料完整的演算法，包含對屬性值是連續的是的處理。這個也下次在總結吧，今天太晚了。

資料探勘決策樹

資料探勘決策樹

資料探勘之決策樹

資料探勘之決策樹

資料探勘 決策樹

資料探勘 決策樹

資料探勘之決策樹

資料探勘之決策樹

相關推薦

資料探勘決策樹

資料探勘決策樹