資料探勘之缺失資料缺失的各種插補演算法比較

2021-09-10 15:50:45 字數 1417 閱讀 6014

實驗要求:完成插補實驗

實驗工具: 1、excel**

2、記事本txt檔案

3.、pycharm

4、jbpcafill.jar包

**中含有none,#null!的字元,表示資料缺失,在**統計資料個數時,字元none,#null!影響統計的數量,所以這些字元需要刪除。**在first包裡的prepare.py裡。

思路:兩個for迴圈對行和列進行掃瞄,遇到none或#null!字元,對其賦空值。

**操作如first包裡的em.py所示,並且呼叫了toencoding.py**

**操作如first包裡mice.py所示,直接呼叫ycimpute庫里的mice函式,**操作思路與em演算法操作相似,只需將from ycimpute.imputer import em 改from ycimpute.imputer.mice import mice,呼叫mice函式裡的插補函式即可。

1、將txt檔案轉成csv**,**如two包裡的txttocsv所示

2、觀察**中各個屬性的特點,車牌號是單一的,而其他因素都會影響著車的速度,對於時間的處理,我選擇了取間隔時間,當前時間與下乙個的時間間隔**在two包的diff.py裡。

3、測試集的**位於two包裡的share.py裡, 此測試集**可以保證每次執行都得到相同的測試集,找到測試集的下標並儲存。並將其速度賦值為空。將測試集和訓練集全部存入另一張**。

4、對trafficflow21.csv裡的特徵值進行標準化處理

4.2.1.前期處理

對於ppca演算法,python2有直接安裝的包,python3安裝則會出錯,於是我將ppca插值演算法的包裡函式直接複製貼上到ppca.py裡。對ppca插值演算法的操作**在two包的ppcamake.py裡。分離出訓練的特徵值,進行標準化處理,對空值全部賦999操作,如two包的bpcapre.py所示,然後將轉成txt檔案。

4.2.2.操作步驟呼叫ycimpute裡的em模組即可。將測試集的特徵值帶進em裡的插值函式。返回插值處理後的特徵值資料集。

**如two包裡的share.py所示,呼叫plotfigure函式,如two包裡的mainfunction.py所示,mainfunction.py通過呼叫ppcamake, emmake, bpcamake,share模組裡的函式裡的處理後的特徵值資料集。進行視覺化分析。bpca演算法和em演算法插值的效果幾乎相同,可見bpca演算法最有效。

知識可以共享,資料打死也不會共享。

插值法補齊缺失資料 資料處理 缺失值處理

此文圖方便,就直接輸入資料了。importpandas as pd df pd.dataframe 1缺失值處理 如何判斷缺失值 df.isnull isna df.notnull notna 1.1刪除法 dataframe.dropna axis 0,how any thresh none,su...

資料探勘實戰 資料預處理之缺失值處理

kaggle的titanic 比賽不少題解有標準的處理流程,這裡參考 kaggle titanic 生存 詳細流程 梳理 嘗試提取常用的缺失值處理方法 這裡還是借助google colab 來學習 讀取資料 import pandas as pd data pd.read csv data trai...

pandas記錄之缺失資料

資料讀取 帶資料型別 import pandas as pd df pd.read csv data missing data two.csv convert dtypes df.info class pandas.core.frame.dataframe rangeindex 36 entries...