《資料探勘導論》學習筆記(一)

2021-07-31 02:10:55 字數 1031 閱讀 1733

四種主要的資料探勘任務:

1、**建模任務

2、關聯分析

3、聚類分析

4、異常檢測

主要的資料質量問題:存在雜訊和離群點,資料遺漏、不一致或重複,資料有偏差,或者在別的方面,資料不代表描述所設想的現象或總體情況。

資料集主要分為三類:記錄資料,基於圖形的資料、有序的資料

一般資料集的三個特性:

記錄資料的不同型別:

基於圖形的資料:

有序資料:

資料清理:對資料質量問題的檢測和糾正

抽樣:資料探勘處理所有的資料的費用太高,太費時間,因此使用抽樣的演算法可以壓縮資料量,從而可以使用更好但開銷更大的演算法

特徵子集的選擇有三個標準選擇方法:

特徵建立:可以有原來的屬性建立新的屬性集,新的屬性集可能比原有的要少,主要三種方法

相似性和相異性的度量

歐幾里德距離是指多維空間兩點間的距離,這是一種用直尺測量出來的距離。

如果將兩個點分別標記為(p1,p2,p3....pn)和(q1,q2,q3.....qn),則歐幾里德距離的計算公式為:

歐幾里得公式的性質:

非負性 

對於所有x和y,d(x,y)>=0;

僅當x=y時,d(x,y)=0;

對稱性 對於所有x和y,d(x,y)=d(y,x)

三角不等式

對於所有x,y,z,d(x,z)<=d(x,y)+d(y,z)

對於兩個有n個二元屬性的物件x和y來說,可以用簡單匹配係數,公式為

smc=(值匹配的屬性個數/屬性個數)=(f₁₁+f00)/(f00 + f10 + f01 + f11)  其中f11表示x取1並且y取1的屬性個數,其他類推

對於非對稱的二元屬性,則用jaccard係數來處理,忽略0-0匹配

對於文件相似性,用余弦相似度處理

如果余弦相似度為1,則除大小外,x和y是相同的,如果余弦相似度為0,則他們不包含任何相似的詞

《資料探勘導論》學習筆記

寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...

《資料探勘導論》筆記 (一)

資料探勘是再大型資料儲存庫中,自動地發現有用資訊的過程。發現先前未知的有用模式,還可以 未來觀測結果 並非所有的資訊發現都視為資料探勘,例使用資料庫查詢個別的記錄或通過網際網路查詢特定的web頁面,則是資訊檢索。儘管如此,人們也在利用資料探勘技術增強資訊檢索系統的能力。資料探勘是資料庫中知識發現 k...

《資料探勘導論》學習筆記(二)

資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...