資料預處理

2021-09-10 16:01:46 字數 1601 閱讀 6703

第一步:匯入需要的庫

這兩個是我們需要匯入的庫,numpy包含數學計算函式,pandas用於匯入和管理資料集。

第二步:匯入資料集

資料集通常是.csv格式,csv檔案以文字形式儲存**資料。檔案的每一行是一條資料記錄。我們使用pandas的read_csv()方法讀取本地csv檔案為乙個資料幀。然後,從資料幀中製作自變數和因變數的矩陣和向量。

第三步:處理丟失資料

我們得到的資料很少是完整的,資料可能因為各種原因丟失。為了不降低機器學習模型的效能,需要處理資料。通常可以採用整列的平均值或中間值替換丟失的資料。我們使用sklearn.preprocessing庫中的imputer類完成這步操作。

第四步:解析分類資料

分類資料指的是含有標籤值而不是數字值的變數。取值範圍通常是固定的。例如「yes」和「no」不能用於模型的數學計算,所以需要解析成數字。為實現這一功能,我們從sklearn.preprocessing庫中匯入labelencoder類。

第五步:拆分資料集為訓練集合和測試集合

把資料集拆分成兩個:乙個是用來訓練模型的訓練集合,另乙個是用來驗證模型的測試集合。兩者的比例一般是80:20。我們匯入sklearn.crossvalidation庫中的train_test_split()方法。

第六步:特徵縮放

大部分模型演算法使用兩點之間的歐幾里得距離表示,但此特徵在幅度、單位和範圍姿態問題上變化很大。在距離計算中,高幅度的特徵比低幅度特徵權重更大。可用特徵標準化或z值歸一化解決。匯入sklearn.preprocessing庫中的standardscalar類。

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...