資料探勘導論 分類

2021-09-01 22:28:20 字數 539 閱讀 8892

分類 ,classification,分類任務就是通過學習得到乙個目標函式(target function),把每個屬性集x對映到乙個預先定義的類標號y。

目標函式也稱為分類模型(classification model)

決策樹,decistion tree

1.概念

決策樹是一種由節點和有向邊組成的層次結構,樹中包含三類節點

(1)根節點,root node ,沒有入邊,但有0條或者多條出邊

(2)內部節點,internal node,恰有1條入邊和兩條或者多條出邊

(3)葉結點,leaf node,或終結點 terminal node ,恰有一條入邊,但沒有出邊

在決策樹中。每個葉結點都賦予乙個類標號,非終結點包含屬性測試條件,用以分開不同特徵的記錄。

2.如何建立決策樹

原則上講,對於給定的屬性集,可以構造的決策數目達指數級。通常採用貪心策略來構造次最優決策樹,在選擇劃分資料的屬性時,採取一系列區域性最優決策來構造決策樹。hunt演算法為例。hunt演算法是很多決策樹演算法基礎,包括id3/c4.5和cart.

資料探勘導論

20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...

資料探勘導論

誤差平方均值,越小越好 從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段,來幫助我們發現過擬合?擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差 模型在新樣本...

資料探勘導論 (二)

序數 能確定物件的序,即大小關係。例 礦石程度 好,較好,最好 區間 可以進行差值比較。例 日曆日期 比例 除了能進行差值比較還能進行比率比較 例 長度 測量誤差 記錄的值與實際值不同 誤差 測量值 實際值 資料收集錯誤 遺漏資料或者不當地包含了其他資料 雜訊 測量誤差的隨機部分,使值被扭曲或者加入...