資料預處理

資料預處理：資料物件和屬性型別，資料的基本統計，資料視覺化，度量資料相似性和差異性

怎麼把連續屬性變成離散屬性，比如顏色，灰度是連續變化的，但可以量化到0～255離散值，所以做完資料去燥之後格式化處理之後要離散化。

資料的計量：定類尺度（等號不等號），定序尺度，定距尺度（分類），定比尺度（所有數學計算）

資料分布的描述：集中趨勢，分散程度

集中趨勢：1，定類資料：眾數，出現頻率最多的屬性值，優點，不受極端值影響，但乙個資料集可能有多個眾數，也可能沒有（1，2，3，4）。描述集中趨勢。2，定序資料：中位數，需要先排序，中間位置，但並不能反映整體面貌，所以用四分位數（兩個值0.25，0.75），用ql反映不滿意，qu反映一般。3，數值型資料：均值，樣本均值和總體均值，資料探勘是求樣本平均，總體平均是求不出來的。加權平均數（樣本加權平均，總體加權平均）pca降維處理的時候，經常使用平均數。

完美情況是均值＝中位數＝眾數，但實際情況會有左偏分布，右偏分布。

離散趨勢：度量手段：定類資料：異眾比，定序：四分衛差，定距和定比：方差和標準差。異眾比率：就是代表眾數是否有代表性，求出乙個眾數，比如頻數最高的可口可樂15，總50，（50-15）／50就是0.7，如果定義0.6有代表型，那麼0.7無。四分位差：上四分位數－下四分位數，反映中間百分之五十資料的離散程度，用於評價中位數的代表性。資料型資料：極差：資料最大值和最小值之差，很容易被極端值影響，簡單初級的方法評價分散程度。平均差：各個變數與平均數離差絕對值的平均數，簡單的定義方法是效果很差的，平均差改進，就變成放差和標準差（最常用反映離散程度）。相對位置的度量：標準分數，（x－x均值）／s，判斷一組資料有沒有離群點，處理後，均值等於0，標準差等於1。

去燥：經驗法則表明，當一組資料對稱分布，約有0.68資料在平均數加減乙個標準差範圍內，0.95～兩個標準差，0.99～三個標準差。三個標準差之外的資料，稱為異常資料，去燥！，對於非對稱資料，用切比雪夫不等式，至少有1-1/k^2的資料落在k個標準差範圍之內,0.75~2個標準差...。相對離散程度：標準差s/x均值.

資料相似度和相異度，是定量的，規範化到0～1之間，臨近性包含了這兩種，簡單的就是用等號，數值物件用歐式距離：

歐式距離很常用，但缺點是它只能用數值屬性，如果每個屬性之間的量值不一樣，比如乙個年齡，乙個身高，就不能做，要做就全變成0～1之間的數。也即是每一維度的標準化。

閔可夫斯基距離

簡單匹配係數／jaccard係數（二元屬性）：

資料預處理

資料預處理

資料預處理

資料預處理

相關推薦