《資料探勘 概念與技術》讀書筆記 第一章 引論

2022-09-05 09:54:12 字數 417 閱讀 2754

資料探勘把大型資料集轉化成知識。

資料倉儲是一種多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策。

聯機分析處理(olap)是一種分析技術,具有彙總、合併和聚集以及從不同的角度觀察資訊的能力。(注:與聯機事務處理oltp不同)

資料探勘是從大量資料中挖掘有趣模式和知識的過程。

資料探勘過程:

資料清洗(消除雜訊和刪除不一致資料)

資料整合(多種資料來源可以組合在一起)

資料選擇(從資料庫中提取與分析任務相關的資料)

資料變換(通過彙總或聚集操作,把資料變換和統一成合適挖掘的形式)

資料探勘(基本步驟,使用智慧型方法提取資料模式)

模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

知識表示(使用視覺化和知識表示技術,向使用者提供挖掘的知識)

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...

資料探勘概念與技術 讀書筆記(2)

原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...

資料探勘概念與技術讀書筆記 二 認識資料

2.1 資料物件與屬性型別 2.1.1 什麼是屬性 2.1.2 標稱屬性 其值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看作是分類的。標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。2.1.3 二元屬性 是一種標稱屬性,只有兩個...