資料探勘分類演算法(2)

2021-05-22 16:20:56 字數 3436 閱讀 7919

**精品導航:http://www.nitaomei.com

1

資料探勘概述

隨著資料庫技術的迅速發展,資料存量大量增加著,但是挖掘海量資料的背後隱藏著的知識的手段遠遠不足。從而導致了「資料**但知識貧乏」的現象。計算機技術的另一領域人工智慧(

artificial intelligence

)自1956

年誕生之後取得了重大進展。該領域目前的研究熱點是機器學習——用計算機模擬人類學習的一門科學。

用資料庫管理系統來儲存資料,用機器學習的方法來分析資料,挖掘大量資料背後的知識,這兩者的結合促成了資料探勘的產生。實際上,資料探勘是一門交叉學科,涉及到機器學習、模式識別、統計學、智慧型資料庫、知識獲取、資料視覺化、高效能計算、專家系統等多個領域。資料探勘的成果可以用在資訊管理、過程控制、科學研究、決策支援等許多方面。

資料採掘

(data mining

),指的是從大型資料庫或資料倉儲中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用資訊。資料探勘

是乙個高階的處理過程,它從資料集中識別出以模式來表示的知識。高階的處理過程是指乙個多步驟的處理過程,多步驟之間相互影響、反覆調整,形成一種螺旋式上公升過程。

資料探勘的過程與人類問題求解的過程是存在巨大相似性的。具體比較見

figure 1.

。挖掘過程可能需要多次的迴圈反覆,每乙個步驟一旦與預期目標不符,都要回到前面的步驟,重新調整,重新執行。

knowledge discovery process

define the problem

define the problem

collect the facts

obtain data to demonstrate past experience

review the quality of your facts

preprocess the data

generalize on your facts - review potential solutions

develop a model

check your generalizations

validate the model

review your objectives

define your objectives

evaluate all solutions to determine the best solution

optimize the problem - find the best solution

figure 1. steps in solving a problem[1]

從資料中發現模式

資料探勘演算法的好壞將直接影響到所發現知識的好壞。資料探勘的任務是從資料中發現模式。模式是乙個用語言

l來表示的乙個表示式

e,它可用來描述資料集

f中資料的特性,

e所描述的資料是集合

f的乙個子集fe。

e作為乙個模式要求它比列舉資料子集

fe中所有元素的描述方法簡單。模式有多種分類,下面做乙個簡要的介紹:

n按功能可分有兩大類:**型(

predictive

)模式和描述型(

descriptive

)模式:

1.**型模式

2.描述型模式

n在實際應用中,往往根據模式的實際作用細分為以下6種:

1.分類模式

2.回歸模式

3.時間序列模式

4.聚類模式

5.關聯模式

6.序列模式

在解決實際問題時,經常要同時使用多種模式。分類模式和回歸模式是使用最普遍的模式。分類模式、回歸模式、時間序列模式也被認為是受監督知識,因為在建立模式前資料的結果是已知的,可以直接用來檢測模式的準確性,模式的產生是在受監督的情況下進行的。一般在建立這些模式時,使用一部分資料作為樣本,用另一部分資料來檢驗、校正模式。聚類模式、關聯模式、序列模式則是非監督知識,因為在模式建立前結果是未知的,模式的產生不受任何監督。

2

分類演算法

分類演算法概述

分類是一類重要的資料探勘問題,可描述如下

[2]:

輸入資料,或稱訓練集training set

),是一條條的資料庫記錄record

)組成的。每一條記錄包含若干條屬性attribute

),組成乙個特徵向量。訓練集的每條記錄還有乙個特定的類標籤class label

)與之對應。該類標籤是系統的輸入,通常是以往的一些經驗資料。

乙個具體樣本的形式可為樣本向量:(v1, v2, ... , vn; c)。在這裡vi表示字段值,c表示類別。

分類的目的是:分析輸入資料,通過在訓練集中的資料表現出來的特性,為每乙個類找到一種準確的描述或者模型。這種描述常常用謂詞表示。由此生成的類描述用來對未來的測試資料進行分類。儘管這些未來的測試資料的類標籤是未知的,我們仍可以由此**這些新資料所屬的類。注意是**,而不能肯定。我們也可以由此對資料中的每乙個類有更好的理解。也就是說:我們獲得了對這個類的知識。

有三種分類器評價或比較尺度:

1.**準確度**準確度是用得最多的一種比較尺度,特別是對於**型分類任務,目前公認的方法是10番分層交叉驗證法。

2.計算複雜度計算複雜度依賴於具體的實現細節和硬體環境,在資料探勘中,由於操作物件是巨量的資料庫,因此空間和時間的複雜度問題將是非常重要的乙個環節。

3.模型描述的簡潔度對於描述型的分類任務,模型描述越簡潔越受歡迎;例如,採用規則表示的分類器構造法就更有用,而神經網路方法產生的結果就難以理解。

分類的典型應用:信用卡系統中的信用分級、市場調查、療效診斷、尋找店址等等。

舉例說明分類的過程

信用卡系統的信用分級是分類的典型應用。

figure 2.

和figure 3.

描述了信用分級系統的執行機制。我們可以看到:這是乙個分為兩步走的過程,第一步是利用訓練資料集進行學習的過程,第二步是進行模型評估,降低模型噪音並投入實際執行的過程。

資料探勘演算法的分類

演算法是資料探勘模型建立的核心,由於資料探勘是乙個交叉學科,因此其演算法也集大成於一身,豐富多彩。可根據演算法分析資料的方式 演算法來自的學科 演算法所得結果的型別 學習過程的型別等,對資料探勘的演算法進行分類。一方面,資料探勘能夠通過olap分析和統計分析,實現對資料的多維度彙總,驗證人們實現對資...

資料探勘之分類演算法

分類是資料探勘 機器學習和模式識別中乙個重要的研究領域。單一的分類方法主要包括 決策樹 貝葉斯 人工神經網路 k 近鄰 支援向量機和基於關聯規則的分類等 還有用於單一分類方法的整合學習演算法,如bagging和boosting等。1 決策樹 主要用於分類和 的技術之一,是以例項為基礎的歸納學習演算法...

資料探勘 分類演算法 KNN

knn k nearest neighbors k近鄰分類演算法 knn演算法從訓練集中找到和新資料最接近的k條記錄,然後根據他們的主要分類來決定新資料的類別。knn分類演算法是資料探勘分類技術中最簡單的方法之一。所謂k最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表...