資料探勘導論（三）

頻率：

分類屬性的眾數：具有最高頻率的值

第1步：以遞增順序排列原始資料（即從小到大排列）。

第2步：計算指數i=np%

第3步：

l）若 i 不是整數，將 i 向上取整。大於i的毗鄰整數即為第p百分位數的位置。

2) 若i是整數，則第p百分位數是第i項與第（i＋l）項資料的平均值。

按照上述的計算公式i=n*p%=10*10%=1，其中n為1到10的整數個數，也就是10，p=10，所以我們得到i=1

i=1是整數，那我們計算p10=(x(i)+x(i+1))/2=(1+2)/2=1.5

剩下的大家可以按照這個公式以此計算了。

均值：就是資料的平均值中位數：資料最中間的數（但是要從小到大順序排列）

因為均值對於離群值很敏感，有時使用截斷均值。指定0和100間的百分位數p，丟棄高階和低端的（p/2）%的資料，然後計算均值。意思就是說，把前

（p/2）%和後（p/2）%的資料扔掉，計算中間的資料均值就能避免離群值。

極差：最大值與最小值的差

方差：每個數與平均值的差的均方誤差。用以體現變化程度

因為均值受離群值影響，所以方差也很敏感。

絕對平均偏差 aad ，中位數絕對偏差 mad ，四分位數極差iqr

協方差矩陣：由不同屬性的協方差構成的矩陣

協方差上的對角線，是屬性的方差。即

對於資料探索，相關性矩陣比協方差更可取，表示每兩個屬性的相關性。

表示：將資料對映到圖形元素即選擇什麼樣的圖

安排：即如何排列資料呈現更好的效果

選擇：即選擇要視覺化的屬性是否需要刪除或不突出某些屬性

1、莖葉圖：可以用來觀測一維整形或連續型資料的分布。莖是高位數字，葉是低位數字如圖

2、直方圖：將莖葉圖用條形圖來表示

3、二維直方圖：將每個屬性劃分成區間，兩個區間集定義值。

4、盒裝圖：盒的上端是第75個百分位數，下端是第25個百分位數，盒中的線是第五十個百分位數的值。

5、餅圖：通常用於相對較少的分類屬性，用面積表示相對頻率。但是在技術上，平方圖更可取。因為相對面積大小很難確定

6、散布圖

用途：1、圖形化地顯示兩個屬性之間的關係。2、當類標號給出時，考察兩個屬性將類分開的程度。

使用散布圖的方法：也可以根據三個屬性而不是兩個屬性來顯示每個物件

1、等高線圖：描述溫度或海拔高度

2、曲面圖：描述數學函式，或變化相對光滑的物理曲面

1、矩陣：儲存影象的亮度和顏色（如果類標號已知，重新排列次序，讓同類的物件聚集在一起，是很有用的方法。如果屬性列值域不同，則要進行標準化，讓均值為0，標準差為1，避免值大的屬性左右圖形）

2、平行座標系：每個屬性乙個座標軸，相互平行，最後用連線連線

缺點：如果線交叉太多，則圖形會變得模糊不清。需要安排座標軸，以得到較少交叉的座標軸序列

3、星型座標和chernoff臉

理解，清晰性，一致性，有效性，必要性，真實性

事實表：

步驟：1、維的識別 2、分析所關注的屬性的識別

資料立方體：計算聚集量（計算邊緣總和）

維規約和轉軸（減少維度，轉軸：在除兩個維之外的所有維上聚集，即只保留兩個維）

資料探勘導論

20世紀60年代，從檔案處理演化到資料庫系統 20世紀70年代，演化到關聯式資料庫，聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在，研究分布性多樣性和資料共享等問題，還有基於internet的全球資訊系統 80年代後期到現在，出現的資料庫結構是資料倉儲，可將多個一種資料來源在單個站...

資料探勘導論

誤差平方均值，越小越好從大家直觀的感受，這三個模型哪個更好？左上？右上？還是左下？右上，因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段，來幫助我們發現過擬合？擬合曲線的引數過多。分訓練集和測試集，設定測試資料用於判斷擬合的情況。泛化誤差模型在新樣本...

資料探勘導論（二）

序數能確定物件的序，即大小關係。例礦石程度好，較好，最好區間可以進行差值比較。例日曆日期比例除了能進行差值比較還能進行比率比較例長度測量誤差記錄的值與實際值不同誤差測量值實際值資料收集錯誤遺漏資料或者不當地包含了其他資料雜訊測量誤差的隨機部分，使值被扭曲或者加入...

資料探勘導論 （三）

資料探勘導論

資料探勘導論

資料探勘導論 （二）

相關推薦

資料探勘導論（三）

資料探勘導論（二）