大話資料探勘第一章1 1 1 5

2021-06-27 17:46:16 字數 3153 閱讀 7406

1、資料探勘的最高境界就是『從資料中獲取知識,輔助科學決策』。

希望通過我們的資料探勘課程的學習,使你們了解到什麼是資料探勘?它能夠幹什麼?有哪些資料探勘技術?怎麼應用?

沃爾瑪的'購物籃分析』後來演變為『關聯規則分析』

2、資料探勘定義:資料探勘(datamining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中,提取隱含在其中的、人 們事先不知道的、但又是潛在有用資訊和知識的過程。

大量的:實際上資料探勘的演算法大都是建立在統計學大數定律基礎上的,資料量太小,常常無法反映出真實世界中的普遍性,這樣挖掘演算法得出的結論自然不可靠。但並非小資料量就不可以挖掘,近年來研究者也提出了一些對小樣本進行挖掘的方法,如支撐向量機方法就是基於小樣本學習理論的非常實用的方法。資料量雖小,但資料總是事物特性一定程度的反映,只要建立的模型和演算法得當,當然也可以從這些資料中獲取一定的資訊。也不是說資料量越大越好,隨著資料量的增大,演算法執行效率會越來越低,甚至無法計算。

有雜訊的:由於異常情況的干擾,使我們獲得的資料偏離了真實值,這樣的資料就是噪音資料。

不完全的:問卷調查時發現不少人不填婚姻狀況和年齡,這些不完全的或缺失的資料會給資料探勘帶來一定的難度,我們要麼乾脆刪除這些樣本或記錄,要麼選擇使用一定的方法將這些缺失資料補上,或者選擇使用可以自動處理缺失資料的演算法。

模糊的:模糊性則指事物本身從屬概念的不確定性。個子的高矮就是典型的模糊性概念,到底多高才算高。

隨機的:隨機性是指事件發生與否的不確定性。比如說超市啤酒每天的銷量顯然是不確定的,大部分人買啤酒是在超市轉悠時臨時決定的。

3、我們能夠收集、儲存、處理如此海量的資料,歸功於20世紀70年代ibm發明的關係式資料庫和sql查詢語言。在此基礎上通過計算機和網路進行聯機事務處理(online transaction processing,oltp)可以對管理資訊進行日常操作並及時、安全、高效地儲存資料,這樣便引發了資料**式地增長。

資料倉儲出現的原因:

oltp關心的只是業務操作,只對當前資料感興趣。其實資訊處理的目的是為人們提供決策支援,這就需要對歷史資料進行大量地分析處理。對歷史資料的分析,往往導致系統進行長時間執行,嚴重影響日常資料實時操作,這就要求把分析性操作及其相關資料從事務處理環境中提取出來,按照決策支援的需要進行重新組織,建立單獨的分析環境。

為了滿足這種需求,w. h. inmon 於2023年出版了『building the data warehouse』,從此資料倉儲(datawarehouse)隆重登場。

4、資料探勘以資料庫中的知識發現(knowledge discovery in database,kdd)。從此以後,資料探勘(data mining)和資料庫中的知識發現(kdd)互為別名。

在科研界便繼續沿用 kdd 這個術語,而在商用領域,因為『資料庫中的知識發現』顯得過於冗長,就普遍採用了更加通俗、簡單的術語『資料探勘』。

5、資料探勘的主要功能:

概括地說,資料探勘的功能主要包括關聯分析、聚類分析、分類、回歸、時間序列分析和偏差甄別等,下面我們分別介紹這些功能。

6、關聯規則挖掘:

關聯是指乙個事件與另乙個事件之間的依賴關係。關聯規則挖掘是發掘資料庫中的關聯關係。

關聯(association)規則挖掘,最經典的關聯規則演算法是2023年提出的apriori演算法。

apriori演算法最基本思想是:

首先從事件中尋找所有頻繁出現的事件子集,然後在這些頻繁事件子集中發現可信度較高的規則。

7、 聚類:

聚類就是將資料物件劃分成若干個類,在同一類中的物件具有較高的相似度,而不同類中的物件差異較大。

兩個物件間的距離越小,說明二者越相似,用距離度量物件的相似性是最自然的方法。

聚類的基本思想:

類內資料點越近越好,類間資料點越遠越好。

兩類經典的聚類演算法:

劃分方法(partitioning method)和層次聚類方法(hierarchical method)。

8、兩種劃分方法:k-means和k-medoids方法

k-means演算法核心思想是把n個資料物件劃分為k個類,使每個類中的資料點到該類中心的距離平方和最小。

k-means演算法就是嘗試找出平方誤差函式最小的k個劃分,為了找出合適的聚類個數k,一般用若干個k試驗,哪個k得到的距離平方和最小,就認為哪個k是最佳的聚類個數。

k-means演算法和k-medoids演算法區別:

k-means演算法:將已聚集的點的均值作為新的聚類中心。對雜訊和孤立點非常敏感,因為乙個離群值對質心的計算影響很大。

k-medoids演算法:以各聚類均值點最近的點作為聚類中心,其他和k-means演算法一致,可以有效消除k-means演算法的敏感性。

k-means演算法和k-medoids演算法的應用:

當結果簇是密集的,而簇與簇之間區別明顯時,k-means演算法的效果較好。對於大規模資料集,該演算法是相對可擴充套件的,並且具有較高的效率。

k-means和k-mediods演算法只有在簇資料點的平均值有定義的情況下才能使用,即一般只適用於連續變數,而對於離散屬性的變數無法使用;後有改進後的k-模演算法,k-模演算法用模代替簇的平均值,用新的相異性度量方法來處理分類物件,如基於頻率的方法來修改聚類的模。k-means和k-模演算法相結合,產生k-原型演算法,用了處理有數值型別和分類型別屬性的資料。

這兩種演算法也不適用於發現非球狀的簇。對於非球狀的簇,要用密度來代替相似性聚類演算法,基於密度的聚類演算法即density-based-method,常見的有dbscan、optics、denclue等。

9、 層次方法(hierarchical method)的基本思想:按資料分層建立簇,形成一顆以簇為節點的樹。如果自底向上進行層次聚集,則稱為凝聚的(aggalomerative)層次聚類;如果自頂向下進行層次分解,則稱為**法(divisive)的層次聚類。

層次方法的優缺點:

優點:層次方法可以在不同粒度水平上對資料進行探測,容易實現相似度量或距離度量。

缺點:單純的層次聚類演算法終止條件含糊,執行合併或**簇的操作不可修正,可能導致聚類結果質量很低。

而且需要檢查和估算大量物件或簇才能決定簇的合併或**,所以可擴充套件性較差。

所以實際解決中,將層次演算法和其他聚類演算法結合,形成多階段聚類,能夠改善聚類質量。這種方法包括:brich、cure、

rock、chameleon等。

大話資料結構筆記第一章

資料結構的定義 相互之間存在一種或多種特定關係的資料元素的集合 資料 是描述客觀事物的符號,是計算機中可以操作的物件,是能被計算機識別,並輸入給計算機處理的符號集合 資料元素 是組成資料的 有一定意義的基本單位,在計算機中通常作為整體處理。也被稱為記錄 資料項 乙個資料元素可以由若干個資料項組成 例...

大話資料結構 第一章 簡介

基本觀念和術語 資料 是描述客觀事物的符號,是計算機中可以操作的物件,是能被計算機識別,並輸入給計算機處理的符號集合。資料元素 是組成資料的 有一定意義的基本單位,在計算機中通常作為整體處理。也被稱為記錄。資料項 乙個資料元素可以由若干個資料項組成。資料項是資料不可分割的最小單位。資料物件 是性質相...

大話資料結構第一章學習筆記

今天第一天看書,首先理一下邏輯順序 首先了解什麼是資料結構 然後還有什麼是演算法 基礎的了解之後學習 線性表 棧與佇列 串 樹 圖 查詢 排序 目前看來 書的結構還是很緊湊的 滿滿的都是硬貨 第一章 資料結構緒論 資料結構起源 需要用一些高效的手段來處理事情 處理問題 基本概念 資料 不僅僅是數字 ...