大話資料探勘第一章1 1 1 5

1、資料探勘的最高境界就是『從資料中獲取知識，輔助科學決策』。

希望通過我們的資料探勘課程的學習，使你們了解到什麼是資料探勘？它能夠幹什麼？有哪些資料探勘技術？怎麼應用？

沃爾瑪的'購物籃分析』後來演變為『關聯規則分析』

2、資料探勘定義：資料探勘（datamining）就是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中，提取隱含在其中的、人們事先不知道的、但又是潛在有用資訊和知識的過程。

大量的：實際上資料探勘的演算法大都是建立在統計學大數定律基礎上的，資料量太小，常常無法反映出真實世界中的普遍性，這樣挖掘演算法得出的結論自然不可靠。但並非小資料量就不可以挖掘，近年來研究者也提出了一些對小樣本進行挖掘的方法，如支撐向量機方法就是基於小樣本學習理論的非常實用的方法。資料量雖小，但資料總是事物特性一定程度的反映，只要建立的模型和演算法得當，當然也可以從這些資料中獲取一定的資訊。也不是說資料量越大越好，隨著資料量的增大，演算法執行效率會越來越低，甚至無法計算。

有雜訊的：由於異常情況的干擾，使我們獲得的資料偏離了真實值，這樣的資料就是噪音資料。

不完全的：問卷調查時發現不少人不填婚姻狀況和年齡，這些不完全的或缺失的資料會給資料探勘帶來一定的難度，我們要麼乾脆刪除這些樣本或記錄，要麼選擇使用一定的方法將這些缺失資料補上，或者選擇使用可以自動處理缺失資料的演算法。

模糊的：模糊性則指事物本身從屬概念的不確定性。個子的高矮就是典型的模糊性概念，到底多高才算高。

隨機的：隨機性是指事件發生與否的不確定性。比如說超市啤酒每天的銷量顯然是不確定的，大部分人買啤酒是在超市轉悠時臨時決定的。

3、我們能夠收集、儲存、處理如此海量的資料，歸功於20世紀70年代ibm發明的關係式資料庫和sql查詢語言。在此基礎上通過計算機和網路進行聯機事務處理（online transaction processing，oltp）可以對管理資訊進行日常操作並及時、安全、高效地儲存資料，這樣便引發了資料**式地增長。

資料倉儲出現的原因：

oltp關心的只是業務操作，只對當前資料感興趣。其實資訊處理的目的是為人們提供決策支援，這就需要對歷史資料進行大量地分析處理。對歷史資料的分析，往往導致系統進行長時間執行，嚴重影響日常資料實時操作，這就要求把分析性操作及其相關資料從事務處理環境中提取出來，按照決策支援的需要進行重新組織，建立單獨的分析環境。

為了滿足這種需求，w. h. inmon 於2023年出版了『building the data warehouse』，從此資料倉儲（datawarehouse）隆重登場。

4、資料探勘以資料庫中的知識發現（knowledge discovery in database，kdd）。從此以後，資料探勘（data mining）和資料庫中的知識發現（kdd）互為別名。

在科研界便繼續沿用 kdd 這個術語，而在商用領域，因為『資料庫中的知識發現』顯得過於冗長，就普遍採用了更加通俗、簡單的術語『資料探勘』。

5、資料探勘的主要功能：

概括地說，資料探勘的功能主要包括關聯分析、聚類分析、分類、回歸、時間序列分析和偏差甄別等，下面我們分別介紹這些功能。

6、關聯規則挖掘：

關聯是指乙個事件與另乙個事件之間的依賴關係。關聯規則挖掘是發掘資料庫中的關聯關係。

關聯（association）規則挖掘，最經典的關聯規則演算法是2023年提出的apriori演算法。

apriori演算法最基本思想是：

首先從事件中尋找所有頻繁出現的事件子集，然後在這些頻繁事件子集中發現可信度較高的規則。

7、聚類：

聚類就是將資料物件劃分成若干個類，在同一類中的物件具有較高的相似度，而不同類中的物件差異較大。

兩個物件間的距離越小，說明二者越相似，用距離度量物件的相似性是最自然的方法。

聚類的基本思想：

類內資料點越近越好，類間資料點越遠越好。

兩類經典的聚類演算法：

劃分方法（partitioning method）和層次聚類方法（hierarchical method）。

8、兩種劃分方法：k-means和k-medoids方法

k-means演算法核心思想是把n個資料物件劃分為k個類，使每個類中的資料點到該類中心的距離平方和最小。

k-means演算法就是嘗試找出平方誤差函式最小的k個劃分，為了找出合適的聚類個數k，一般用若干個k試驗，哪個k得到的距離平方和最小，就認為哪個k是最佳的聚類個數。

k-means演算法和k-medoids演算法區別：

k-means演算法：將已聚集的點的均值作為新的聚類中心。對雜訊和孤立點非常敏感，因為乙個離群值對質心的計算影響很大。

k-medoids演算法：以各聚類均值點最近的點作為聚類中心，其他和k-means演算法一致，可以有效消除k-means演算法的敏感性。

k-means演算法和k-medoids演算法的應用：

當結果簇是密集的，而簇與簇之間區別明顯時，k-means演算法的效果較好。對於大規模資料集，該演算法是相對可擴充套件的，並且具有較高的效率。

k-means和k-mediods演算法只有在簇資料點的平均值有定義的情況下才能使用，即一般只適用於連續變數，而對於離散屬性的變數無法使用；後有改進後的k-模演算法，k-模演算法用模代替簇的平均值，用新的相異性度量方法來處理分類物件，如基於頻率的方法來修改聚類的模。k-means和k-模演算法相結合，產生k-原型演算法，用了處理有數值型別和分類型別屬性的資料。

這兩種演算法也不適用於發現非球狀的簇。對於非球狀的簇，要用密度來代替相似性聚類演算法，基於密度的聚類演算法即density-based-method，常見的有dbscan、optics、denclue等。

9、層次方法（hierarchical method）的基本思想：按資料分層建立簇，形成一顆以簇為節點的樹。如果自底向上進行層次聚集，則稱為凝聚的（aggalomerative）層次聚類；如果自頂向下進行層次分解，則稱為**法（divisive）的層次聚類。

層次方法的優缺點：

優點：層次方法可以在不同粒度水平上對資料進行探測，容易實現相似度量或距離度量。

缺點：單純的層次聚類演算法終止條件含糊，執行合併或**簇的操作不可修正，可能導致聚類結果質量很低。

而且需要檢查和估算大量物件或簇才能決定簇的合併或**，所以可擴充套件性較差。

所以實際解決中，將層次演算法和其他聚類演算法結合，形成多階段聚類，能夠改善聚類質量。這種方法包括：brich、cure、

rock、chameleon等。

大話資料探勘第一章1 1 1 5

大話資料結構筆記第一章

大話資料結構第一章簡介

大話資料結構第一章學習筆記

大話資料探勘第一章1 1 1 5

大話資料結構筆記第一章

大話資料結構 第一章 簡介

大話資料結構第一章學習筆記

相關推薦

大話資料結構第一章簡介