KDD全過程利用缺失資料的方法 by張師超

2021-09-02 19:27:08 字數 3227 閱讀 7235

缺失資料分類

結束語資料缺失在機器學習人工智慧領域十分常見,如何處理缺失資料是要考慮的問題。

資料缺失的幾種形式:

資料缺失的原因:

傳統的資料缺失處理在資料預處理中完成,基於此提出了全過程中缺失資料利用的流程

傳統的填充方法如下所示,使得所有的缺失資料使用同乙個填充演算法。

那麼能不能在填充過程中就可以利用缺失資料來提高填充質量呢?可以,方法是按照乙個順序逐步填充,填充後面的資料是可以利用前面已經填好的資料。這個問題的挑戰是在遞迴過程中需要調整模型引數。1

在缺失資料填充階段利用缺失資料

方法:先填充,後利用

名稱:u3i填充2

背景:資料集合的屬性通常有多種型別,計算距離時,非數值型資料之間的距離如何計算?

方法:設計混合核函式距離計算方法

名稱:mad缺失填充3

效果:填補混合屬性下填充的技術空白

方法:填充完後,保持資料集合原有的統計量,均值和分布函式基本不變4

5結果:保持了一類資料結構

填充缺失樣本

計算填充後的均值和分布函式

比較前後的均值和分布函式的差異

如果差異不滿足要求

調整引數並轉第一步

否則,輸出填充結果

背景:早期的填充函式是對整個訓練樣本空間的資料進行擬合,但是,樣本分佈在不同空間具有不同的密度。(如,腫瘤的良性和惡性,其分布不一樣)

方法:樣本空間分成3~7個類,在各個類上建立填充函式,保持各個類中原有的統計意義6

效果:提公升填充結果的精確度

思路:重複1000次以上填充,調整填充模式的引數7

解決:微調填充模型的引數

背景:訓練樣本中各個類的份額嚴重失衡,即,非均衡資料

方法:採用cf(不確定因子)思想改良knn填充方法8

實現:考慮各類資料的全域性資訊

效果:非均衡/傾斜類資料填充

構造灰度距離函式

資料值域歸一化處理

計算資料之間的灰度距離

填充含缺失值資料

資料值域之間存在數量級不一致性問題,例如,腫瘤周長和圓潤度的數量級不一致性導致學習bias,計算灰度距離可以消除這種學習bias.

背景:最近鄰點的選取可能因為樣本數量不足,選區的一些點有偏差

方法:採取直接最近鄰點填充9

實現:殼層最近鄰點的選取(二次選取最近鄰點)

效果:解決濫竽充數問題

缺失資料a的k個最近鄰點s1

依照座標軸逐一從s1中選擇出每個座標軸的左右最近鄰點各乙個

這樣選擇的所有最近鄰點組成s2

採用s2中的最近鄰點填充a的缺失值

注意:在第二步中,有些最近鄰點可以被多次選擇,如果記錄下選擇次數,可以用於加權填充。

背景:有些缺失資料確實是噪音

方法:less is better than more: 填充代價低,挖掘模式的質量更高10

實現:只利用部分缺失資料,獲取更高的挖掘效果

效果:缺失資料是孤立點的問題

背景:非均衡資料分類,代價/風險敏感分類

方法:對於資料得缺失值,採用賦值乙個代價來處理11

效果:給問題加料

測試和誤分類代價之和最小化為最佳理念

最小化測試與誤分類代價的決策樹分類

第乙個考慮多個代價敏感的資料探勘模型

也用於挖掘含有缺失值的資料

對於含有缺失值的資料,採用賦值乙個代價來處理

方法:同時考慮等待代價、測試代價、誤分類代價,以及缺失資料的處理代價12

目的:總代價最小化

效果:多代價的最小化

在你的問題中考慮缺失資料利用,即,給問題加料

zhu, x., zhang, s., zhang, j., & zhang, c. (2007, july). cost-sensitive imputing missing values with ordering. in aaai (pp. 1922-1923). ↩︎

zhang, s., jin, z., & zhu, x. (2011). missing data imputation by utilizing information within incomplete instances. journal of systems and software, 84(3), 452-459. ↩︎

zhu, x., zhang, s., jin, z., zhang, z., & xu, z. (2011). missing value estimation for mixed-attribute data sets. ieee transactions on knowledge and data engineering, 23(1), 110-121. ↩︎

zhang, s., zhang, j., zhu, x., qin, y., & zhang, c. (2008). missing value imputation based on data clustering. in transactions on computational science i (pp. 128-138). springer, berlin, heidelberg. ↩︎

zhang, s. (2008). parimputation: from imputation and null-imputation to partially imputation. ieee intelligent informatics bulletin, 9(1), 32-38. ↩︎

ling, c. x., yang, q., wang, j., & zhang, s. (2004, july). decision trees with minimal costs. in proceedings of the twenty-first international conference on machine learning (p. 69). acm. ↩︎

zhang, s. (2010). cost-sensitive classification with respect to waiting cost. knowledge-based systems, 23(5), 369-378. ↩︎

Oracle資料回滾的全過程

前言 最近在修復乙個比較老的專案報表的bug的時候,因為對該專案不太熟悉,導致生產環境資料修改有誤,於是求助導師幫忙回滾資料,現學習一下oralce資料回滾以備不時之需。檢視某個時間點的表的資料 select from 表名 as of timestamp to timestamp 2019 04 ...

http請求的全過程

這幾天看乙個講解乙個網頁從我們輸入位址到顯示在我們面前的乙個講解,是我對http又有了乙個完整的了解,現在做一下整個流程的記錄,雖然不是很詳細,但是整個過程是完整的。如果不對,請指正!開啟瀏覽器,位址列輸入blog.csdn.net。開始進行網域名稱解析 瀏覽器獲得網域名稱對應的ip位址後 發起ht...

WEB請求的全過程

本系列是以iis6.0為準進行闡述的 當我們在瀏覽器位址列中鍵入比如 回車後,相當於向伺服器 192.168.1.1 傳送了乙個web頁 test.aspx 請求,這個請求經由http.sys後 到iis。那麼在到達iis之前,http.sys對這個請求做了什麼?http.sys又是個啥呢?它又有什...