資料探勘 決策樹

2021-05-10 22:01:20 字數 1041 閱讀 8119

分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物、場景採取不同的應對方式。

資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,如果訓練元組中已經包含了各樣本的類標識號,也就是說知道了樣本的類別,則稱為監督學習,否則是無監督學習,也稱為聚類。

我們可以吧第一步看作是建立乙個對映,y=f(x),x是樣本,y則是輸出的類標識號。這個對映可以使一系列的規則,乙個數學函式,或者是決策樹,亦或是難以解釋的神經網路或其他。當然,決策樹可以轉化為規則,神經網路經過簡化或也可以,這樣可以給人呈現一種比較直觀的方式。

第二步就是分類,使用學習好了的分類器對位置類標識號的資料進行分類。那麼如何才能評判分類器的好壞,也就是準確率呢?我們使用檢驗元組。檢驗元組是指從一般資料集(非訓練資料集)中選取的,但是其類標識號已知。準確率accuracy是指正確分類佔總檢驗元組的比重。

在使用檢驗元組得到乙個能接受的正確率之後,分類器就可以用在對未知資料的分類上了。

訓練集和檢驗集如何選取應該有一定的指導原則,因為訓練集對分類器的準確率起到了非常重要的作用,這方面我還沒有去找過。另外乙個還需要花些時間,非常重要的問題就是特徵子集的選擇,也叫屬性子集選擇。

用決策樹歸納分類

決策樹不需要任何引數的設定和領域知識(也許屬性選擇還是需要的),非常適合於探測式知識發現,並且可以處理高維資料(指的是屬性非常多的資料),表達直觀易懂,使用廣泛。決策樹是許多商業歸納系統的基礎。

決策樹歸納的基本演算法都採用的貪心演算法,採用自頂向下遞迴的分治方式構造。演算法最重要的是選擇當下"最好"的splitting_criteria,如何評判最好的呢?書中介紹了好幾種方法,基本上都要用到概率統計裡面的知識,下次再總結吧。另外注意一點是如果允許多路劃分並且是離散的,則splitting_criteria中的屬性應該從當前的屬性列表中去掉。

我今天知識自己實現了collective intelligence中的例子,想著這幾天實現資料完整的演算法,包含對屬性值是連續的是的處理。這個也下次在總結吧,今天太晚了。

資料探勘 決策樹

決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...

資料探勘之決策樹

熟悉掌握決策樹的原理,熟練掌握決策樹的生成方法與過程 anaconda sklearn pydotplus 決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。from sklearn import tree x 0 0 ...

資料探勘之決策樹

決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。利用anaconda sklearn生成決策樹並利用決策樹進行 利用pydotplus來顯示 from sklearn import tree x 0 0 1,1 y 0...