資料探勘導論 筆記

2021-07-25 01:47:37 字數 1665 閱讀 6606

1.1為什麼進行資料探勘?

資訊時代的來臨不貼切,我們的時代其實是資料時代,還沒有真正步入資訊時代,現在資料**增長,需要將資料轉化為知識。

1.2什麼是資料探勘?

即kdd,資料中的資料發現

知識發現的迭代步驟為:1)資料清理2)資料整合3)資料選擇4)資料變換5)資料探勘6)模式評估7)知識表示

廣義的資料探勘可表述為:從大量資料中挖掘有趣模式和知識的過程。

1.3可以挖掘什麼型別的資料?

1)資料庫資料

一些概念如:

資料庫系統(有一組內部相關的資料和一組管理和訪問資料的軟體程式組成)

關聯式資料庫(表的匯集,實體-聯絡資料模型,將資料庫表示成一組實體和他們之間的聯絡)

資料庫查詢(連線、選擇、投影、優化,提取資料的乙個指定的問題)

2)資料倉儲

乙個從多個資料來源收集的資訊儲存庫,存放在一直的模式下,並且通常駐留在單個結點上,通常是彙總的

一些概念:

資料立方體(多維資料結構建模,每個維對於乙個或一組屬性,每個單元存放某種度量)

olap操作(聯機分析處理,包括下鑽,上捲,資料立方體的每乙個單元都可下鑽為另乙個資料立方體,上捲也可)

3)事務資料

4)其他

1.4可以挖掘什麼型別的模式

一般可分為描述性、**性

1)類/概念描述:特徵化與區分

面向屬性的歸納技術,用來進行泛化和特徵化

資料特徵化的輸出形式:餅圖、條圖、曲線、多維資料立方體、多維表

資料區分:使用者指定目標類和對比類

2)挖掘頻繁模式、關聯和相關性

頻繁模式分為頻繁項集、頻繁子串行、頻繁子結構等

關聯分析:置信度、支援度

單維關聯規則、多維關聯規則

3)用於**分析的分類與回歸

分類:找出描述和區分資料類或概念的模型,以便能夠使用模型**類標號未知的物件的類標號。匯出模型為對資料集的分析。

如何提供到處的模型:決策樹、神經網路

4)聚類分析

最大化類內相似性、最小化類間相似性

5)離群點分析

大部分被視為雜訊或異常而丟棄

某些情況,罕見的事件可能比正常出現的事件更令人感興趣。(離群點分析、異常挖掘)

6)所有模式都是有趣的嗎?

什麼模式是有趣的:易於被人理解、對新的或檢驗資料是有效的、潛在有用的、新穎的

有趣的度量:支援度、置信度、(準確率、覆蓋率)

主觀興趣度度量:基於使用者對資料的信念

dm能產生所有有趣的模式嗎:涉及資料探勘演算法的完全性

dm僅產生有趣的模式嗎:優化問題

1.5使用什麼技術

統計學、機器學習、模式識別、資料庫和資料倉儲、資訊檢索、視覺化、演算法、高效能計算和其它

對於分類和聚類任務,機器學習通常關注模型的準確率,資料探勘非常強調挖掘方法在大型資料集上的有效性和可伸縮性,以及處理複雜資料型別的方法。

1.6面向什麼型別的應用

1)商務智慧型

2)web搜尋引擎

1.7資料探勘的主要問題

挖掘方法、使用者互動、有效性與可伸縮性、資料型別的多樣性、資料探勘與社會

《資料探勘導論》學習筆記

寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...

《資料探勘導論》筆記 (一)

資料探勘是再大型資料儲存庫中,自動地發現有用資訊的過程。發現先前未知的有用模式,還可以 未來觀測結果 並非所有的資訊發現都視為資料探勘,例使用資料庫查詢個別的記錄或通過網際網路查詢特定的web頁面,則是資訊檢索。儘管如此,人們也在利用資料探勘技術增強資訊檢索系統的能力。資料探勘是資料庫中知識發現 k...

資料探勘導論

20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...