資料探勘導論分類

分類，classification，分類任務就是通過學習得到乙個目標函式（target function），把每個屬性集x對映到乙個預先定義的類標號y。

目標函式也稱為分類模型（classification model）

決策樹，decistion tree

1.概念

決策樹是一種由節點和有向邊組成的層次結構，樹中包含三類節點

（1）根節點，root node ，沒有入邊，但有0條或者多條出邊

（2）內部節點，internal node，恰有1條入邊和兩條或者多條出邊

（3）葉結點，leaf node，或終結點 terminal node ，恰有一條入邊，但沒有出邊

在決策樹中。每個葉結點都賦予乙個類標號，非終結點包含屬性測試條件，用以分開不同特徵的記錄。

2.如何建立決策樹

原則上講，對於給定的屬性集，可以構造的決策數目達指數級。通常採用貪心策略來構造次最優決策樹，在選擇劃分資料的屬性時，採取一系列區域性最優決策來構造決策樹。hunt演算法為例。hunt演算法是很多決策樹演算法基礎，包括id3/c4.5和cart.

資料探勘導論

20世紀60年代，從檔案處理演化到資料庫系統 20世紀70年代，演化到關聯式資料庫，聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在，研究分布性多樣性和資料共享等問題，還有基於internet的全球資訊系統 80年代後期到現在，出現的資料庫結構是資料倉儲，可將多個一種資料來源在單個站...

資料探勘導論

誤差平方均值，越小越好從大家直觀的感受，這三個模型哪個更好？左上？右上？還是左下？右上，因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段，來幫助我們發現過擬合？擬合曲線的引數過多。分訓練集和測試集，設定測試資料用於判斷擬合的情況。泛化誤差模型在新樣本...

資料探勘導論（二）

序數能確定物件的序，即大小關係。例礦石程度好，較好，最好區間可以進行差值比較。例日曆日期比例除了能進行差值比較還能進行比率比較例長度測量誤差記錄的值與實際值不同誤差測量值實際值資料收集錯誤遺漏資料或者不當地包含了其他資料雜訊測量誤差的隨機部分，使值被扭曲或者加入...

資料探勘導論 分類

資料探勘導論

資料探勘導論

資料探勘導論 （二）

相關推薦

資料探勘導論分類

資料探勘導論（二）