資料探勘分類演算法（2）

**精品導航：http://www.nitaomei.com

資料探勘概述

隨著資料庫技術的迅速發展，資料存量大量增加著，但是挖掘海量資料的背後隱藏著的知識的手段遠遠不足。從而導致了「資料**但知識貧乏」的現象。計算機技術的另一領域人工智慧（

artificial intelligence

）自1956

年誕生之後取得了重大進展。該領域目前的研究熱點是機器學習——用計算機模擬人類學習的一門科學。

用資料庫管理系統來儲存資料，用機器學習的方法來分析資料，挖掘大量資料背後的知識，這兩者的結合促成了資料探勘的產生。實際上，資料探勘是一門交叉學科，涉及到機器學習、模式識別、統計學、智慧型資料庫、知識獲取、資料視覺化、高效能計算、專家系統等多個領域。資料探勘的成果可以用在資訊管理、過程控制、科學研究、決策支援等許多方面。

資料採掘

（data mining

），指的是從大型資料庫或資料倉儲中提取人們感興趣的知識，這些知識是隱含的、事先未知的潛在有用資訊。資料探勘

是乙個高階的處理過程，它從資料集中識別出以模式來表示的知識。高階的處理過程是指乙個多步驟的處理過程，多步驟之間相互影響、反覆調整，形成一種螺旋式上公升過程。

資料探勘的過程與人類問題求解的過程是存在巨大相似性的。具體比較見

figure 1.

。挖掘過程可能需要多次的迴圈反覆，每乙個步驟一旦與預期目標不符，都要回到前面的步驟，重新調整，重新執行。

knowledge discovery process

define the problem

collect the facts

obtain data to demonstrate past experience

review the quality of your facts

preprocess the data

generalize on your facts - review potential solutions

develop a model

check your generalizations

validate the model

review your objectives

define your objectives

evaluate all solutions to determine the best solution

optimize the problem - find the best solution

figure 1. steps in solving a problem[1]

從資料中發現模式

資料探勘演算法的好壞將直接影響到所發現知識的好壞。資料探勘的任務是從資料中發現模式。模式是乙個用語言

l來表示的乙個表示式

e，它可用來描述資料集

f中資料的特性，

e所描述的資料是集合

f的乙個子集fe。

e作為乙個模式要求它比列舉資料子集

fe中所有元素的描述方法簡單。模式有多種分類，下面做乙個簡要的介紹：

n按功能可分有兩大類：**型（

predictive

）模式和描述型（

descriptive

）模式：

1.**型模式

2.描述型模式

n在實際應用中，往往根據模式的實際作用細分為以下6種：

1.分類模式

2.回歸模式

3.時間序列模式

4.聚類模式

5.關聯模式

6.序列模式

在解決實際問題時，經常要同時使用多種模式。分類模式和回歸模式是使用最普遍的模式。分類模式、回歸模式、時間序列模式也被認為是受監督知識，因為在建立模式前資料的結果是已知的，可以直接用來檢測模式的準確性，模式的產生是在受監督的情況下進行的。一般在建立這些模式時，使用一部分資料作為樣本，用另一部分資料來檢驗、校正模式。聚類模式、關聯模式、序列模式則是非監督知識，因為在模式建立前結果是未知的，模式的產生不受任何監督。

分類演算法

分類演算法概述

分類是一類重要的資料探勘問題，可描述如下

[2]：

輸入資料，或稱訓練集（training set

），是一條條的資料庫記錄（record

）組成的。每一條記錄包含若干條屬性（attribute

），組成乙個特徵向量。訓練集的每條記錄還有乙個特定的類標籤（class label

）與之對應。該類標籤是系統的輸入，通常是以往的一些經驗資料。

乙個具體樣本的形式可為樣本向量:(v1, v2, ... , vn; c)。在這裡vi表示字段值,c表示類別。

分類的目的是：分析輸入資料，通過在訓練集中的資料表現出來的特性，為每乙個類找到一種準確的描述或者模型。這種描述常常用謂詞表示。由此生成的類描述用來對未來的測試資料進行分類。儘管這些未來的測試資料的類標籤是未知的，我們仍可以由此**這些新資料所屬的類。注意是**，而不能肯定。我們也可以由此對資料中的每乙個類有更好的理解。也就是說：我們獲得了對這個類的知識。

有三種分類器評價或比較尺度:

1.**準確度**準確度是用得最多的一種比較尺度,特別是對於**型分類任務,目前公認的方法是10番分層交叉驗證法。

2.計算複雜度計算複雜度依賴於具體的實現細節和硬體環境,在資料探勘中,由於操作物件是巨量的資料庫,因此空間和時間的複雜度問題將是非常重要的乙個環節。

3.模型描述的簡潔度對於描述型的分類任務,模型描述越簡潔越受歡迎;例如,採用規則表示的分類器構造法就更有用,而神經網路方法產生的結果就難以理解。

分類的典型應用：信用卡系統中的信用分級、市場調查、療效診斷、尋找店址等等。

舉例說明分類的過程

信用卡系統的信用分級是分類的典型應用。

figure 2.

和figure 3.

描述了信用分級系統的執行機制。我們可以看到：這是乙個分為兩步走的過程，第一步是利用訓練資料集進行學習的過程，第二步是進行模型評估，降低模型噪音並投入實際執行的過程。

資料探勘分類演算法（2）

資料探勘演算法的分類

資料探勘之分類演算法

資料探勘分類演算法 KNN

資料探勘分類演算法（2）

資料探勘演算法的分類

資料探勘之分類演算法

資料探勘 分類演算法 KNN

相關推薦

資料探勘分類演算法 KNN