資料探勘導論學習筆記(二)

2021-08-31 16:17:37 字數 2068 閱讀 6413

第三章 探索資料

匯**計:量化的(如均值和標準差),用單個數或數的小集合捕獲可能很大的值集的各種特徵。

頻率:具有屬性值vi的物件數/總數

分類屬性的眾數就是具有最高頻率的值。

百分位數:給定乙個有序的或連續的屬性x和0到100之間的數p,第p個百分位數xp是乙個x值,似的x的p%的觀測值小於xp。

值集位置的度量:

(1)均值:平均值,對於離群值比較敏感

(2)中位數

截斷均值:指0到100之間的百分位數p,丟棄高階和低端的p/2%的資料,然後用常規方法計算均值,就是階段均值。

中位數是p=100的階段均值,標準均值是p=0的階段均值。

散布度量:

(1)極差:最大值減去最小值

(2)方差或標準差

因為均值可能被離群值扭曲,所以方差也可能對離群值敏感

更穩健的估計為:絕對平均偏差,中位數絕對偏差,四分位數極差

視覺化:指以圖形或**的形式顯示資訊。目標是視覺化資訊的人工解釋和資訊的意境模型的形成。

(1)將資訊對映成視覺化形式,即將資訊中的物件屬性和聯絡對映成可是的物件屬性和聯絡。

物件用三種方法表示:

一:如果只考慮物件的單個分類屬性,則通常根據該屬性的值將物件聚成類,並且把類作為表的項或螢幕的區域顯示。

二:如果物件具有多個屬性,則可以將物件顯示為標的一行(或列),或顯示為圖的一條線。

三:物件常常解釋為二維或三維空間中的點,起鬨點可能用幾何圖形表示。

屬性,其表示依賴的屬性的型別。

序數和連續的屬性可以對映成連續的,有序的圖形特徵

分類屬性,每個類別可以對映到乙個不同的位置,顏色形狀,方位,修飾物或表的列。

標稱屬性,要小心,因為無序。

(2)選擇:即刪除或不突出某些物件和屬性。

視覺化技術

一 少量屬性的視覺化

1 莖葉圖:用來窺視一維整型或連續資料的分布。

例:35,36,41,56 莖是高位數字,葉是地位數字。垂直繪製莖,水平繪製葉。

2 直方圖:通過將可能的值分散到箱中,並顯示每個箱中的個數,直方圖顯示屬性值的分布。

一旦有了每個箱的計數,就可以構造條形圖。

二維直方圖:每個屬性劃分成區間,而每個區間集定義值的二維長方體。

3 盒狀圖:顯示一維數值屬性值分布的方法。

4 餅圖:通常用於相對較少的值的分類屬性

累計分布函式:顯示點小於該值的概率

經驗累計分布函式:顯示小於該值的點的百分比。由於點的個數是有限的,經驗累積分布函式是乙個階梯函式。

5 散布圖:使用資料物件兩個屬性的值作為x,y座標值,每個資料物件都作為平面上的乙個點繪製。

用途:(1)圖形化的顯示兩個屬性之間的關係

(2)當類標號給出時,可以使用散布圖考慮兩個屬性將類分開的程度。

二 視覺化時間空間資料

1 等高線圖:將平面劃分成一些區域,區域中的第三個屬性的值粗略相等

2 曲面圖:使用兩個屬性表示x,y座標,曲面圖的第三個屬性用來指示高出前兩個屬性定義的平面的高度。

3 向量場圖:乙個同時顯示方向和量的圖

4 低維切片

5 動畫:顯示資料的相繼二維切片

三 視覺化高維資料

1 矩陣

2 平行座標系:每個屬性乙個座標軸

3 星形座標

視覺化注意事項

1 理解 2 清晰性 3一致性 4 有效性 5必要性 6 真實性

表形式表示的資料集建立多維資料表示的過程:

(1)確定用作維的分類屬性以及用作分析目標的定量屬性。

(2)將表的每一行(物件)對映到多維陣列的乙個單元,單元的下標由被選作維的屬性的值指定,而單元的值是目標屬性的值,假定沒有被資料定義的單元的值為0。

用多維陣列表示資料需要兩個步驟:維的識別 分析所關注的屬性的識別

資料立方體:資料的多維表示,連同所有可能的總和(聚集)稱作資料立方體。

轉軸:指在除兩個維以外的所有維上聚集。

切片:通過對乙個或多個維指定特定的,從整個多維陣列中選擇乙個單元。

切塊:通過指定屬性值區間選擇單元子集,這等價於由整個陣列定義子陣列。

上捲:每天銷售–>按月聚集

下鑽:每月銷售–>分解成日銷售總和

《資料探勘導論》學習筆記(二)

資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...

《資料探勘導論》學習筆記(二)

資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...

《資料探勘導論》學習筆記

寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...