資料探勘之缺失資料缺失的各種插補演算法比較

實驗要求：完成插補實驗

實驗工具： 1、excel**

2、記事本txt檔案

3.、pycharm

4、jbpcafill.jar包

**中含有none，#null!的字元，表示資料缺失，在**統計資料個數時，字元none，#null!影響統計的數量，所以這些字元需要刪除。**在first包裡的prepare.py裡。

思路：兩個for迴圈對行和列進行掃瞄，遇到none或#null!字元，對其賦空值。

**操作如first包裡的em.py所示，並且呼叫了toencoding.py**

**操作如first包裡mice.py所示，直接呼叫ycimpute庫里的mice函式，**操作思路與em演算法操作相似，只需將from ycimpute.imputer import em 改from ycimpute.imputer.mice import mice，呼叫mice函式裡的插補函式即可。

1、將txt檔案轉成csv**，**如two包裡的txttocsv所示

2、觀察**中各個屬性的特點，車牌號是單一的，而其他因素都會影響著車的速度，對於時間的處理，我選擇了取間隔時間，當前時間與下乙個的時間間隔**在two包的diff.py裡。

3、測試集的**位於two包裡的share.py裡，此測試集**可以保證每次執行都得到相同的測試集，找到測試集的下標並儲存。並將其速度賦值為空。將測試集和訓練集全部存入另一張**。

4、對trafficflow21.csv裡的特徵值進行標準化處理

4.2.1.前期處理

對於ppca演算法，python2有直接安裝的包，python3安裝則會出錯，於是我將ppca插值演算法的包裡函式直接複製貼上到ppca.py裡。對ppca插值演算法的操作**在two包的ppcamake.py裡。分離出訓練的特徵值，進行標準化處理，對空值全部賦999操作，如two包的bpcapre.py所示，然後將轉成txt檔案。

4.2.2.操作步驟呼叫ycimpute裡的em模組即可。將測試集的特徵值帶進em裡的插值函式。返回插值處理後的特徵值資料集。

**如two包裡的share.py所示，呼叫plotfigure函式，如two包裡的mainfunction.py所示，mainfunction.py通過呼叫ppcamake, emmake, bpcamake,share模組裡的函式裡的處理後的特徵值資料集。進行視覺化分析。bpca演算法和em演算法插值的效果幾乎相同，可見bpca演算法最有效。

知識可以共享，資料打死也不會共享。

資料探勘之缺失資料缺失的各種插補演算法比較

插值法補齊缺失資料資料處理缺失值處理

資料探勘實戰資料預處理之缺失值處理

pandas記錄之缺失資料

資料探勘之缺失資料缺失的各種插補演算法比較

插值法補齊缺失資料 資料處理 缺失值處理

資料探勘實戰 資料預處理之缺失值處理

pandas記錄之缺失資料

相關推薦

插值法補齊缺失資料資料處理缺失值處理

資料探勘實戰資料預處理之缺失值處理