資料預處理

2021-07-22 23:40:25 字數 1167 閱讀 5616

資料預處理:資料物件和屬性型別,資料的基本統計,資料視覺化,度量資料相似性和差異性

怎麼把連續屬性變成離散屬性,比如顏色,灰度是連續變化的,但可以量化到0~255離散值,所以做完資料去燥之後格式化處理之後要離散化。

資料的計量:定類尺度(等號不等號),定序尺度,定距尺度(分類),定比尺度(所有數學計算)

資料分布的描述:集中趨勢,分散程度

集中趨勢:1,定類資料:眾數,出現頻率最多的屬性值,優點,不受極端值影響,但乙個資料集可能有多個眾數,也可能沒有(1,2,3,4)。描述集中趨勢。2,定序資料:中位數,需要先排序,中間位置,但並不能反映整體面貌,所以用四分位數(兩個值0.25,0.75),用ql反映不滿意,qu反映一般。3,數值型資料:均值,樣本均值和總體均值,資料探勘是求樣本平均,總體平均是求不出來的。加權平均數(樣本加權平均,總體加權平均)pca降維處理的時候,經常使用平均數。

完美情況是均值=中位數=眾數,但實際情況會有左偏分布,右偏分布。

離散趨勢:度量手段:定類資料:異眾比,定序:四分衛差,定距和定比:方差和標準差。異眾比率:就是代表眾數是否有代表性,求出乙個眾數,比如頻數最高的可口可樂15,總50,(50-15)/50就是0.7,如果定義0.6有代表型,那麼0.7無。四分位差:上四分位數-下四分位數,反映中間百分之五十資料的離散程度,用於評價中位數的代表性。資料型資料:極差:資料最大值和最小值之差,很容易被極端值影響,簡單初級的方法評價分散程度。平均差:各個變數與平均數離差絕對值的平均數,簡單的定義方法是效果很差的,平均差改進,就變成放差和標準差(最常用反映離散程度)。相對位置的度量:標準分數,(x-x均值)/s,判斷一組資料有沒有離群點,處理後,均值等於0,標準差等於1。

去燥:經驗法則表明,當一組資料對稱分布,約有0.68資料在平均數加減乙個標準差範圍內,0.95~兩個標準差,0.99~三個標準差。三個標準差之外的資料,稱為異常資料,去燥!,對於非對稱資料,用切比雪夫不等式,至少有1-1/k^2的資料落在k個標準差範圍之內,0.75~2個標準差...。相對離散程度:標準差s/x均值.

資料相似度和相異度,是定量的,規範化到0~1之間,臨近性包含了這兩種,簡單的就是用等號,數值物件用歐式距離:

歐式距離很常用,但缺點是它只能用數值屬性,如果每個屬性之間的量值不一樣,比如乙個年齡,乙個身高,就不能做,要做就全變成0~1之間的數。也即是每一維度的標準化。

閔可夫斯基距離

簡單匹配係數/jaccard係數(二元屬性):

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...