資料預處理

第一步：匯入需要的庫

這兩個是我們需要匯入的庫，numpy包含數學計算函式，pandas用於匯入和管理資料集。

第二步：匯入資料集

資料集通常是.csv格式，csv檔案以文字形式儲存**資料。檔案的每一行是一條資料記錄。我們使用pandas的read_csv()方法讀取本地csv檔案為乙個資料幀。然後，從資料幀中製作自變數和因變數的矩陣和向量。

第三步：處理丟失資料

我們得到的資料很少是完整的，資料可能因為各種原因丟失。為了不降低機器學習模型的效能，需要處理資料。通常可以採用整列的平均值或中間值替換丟失的資料。我們使用sklearn.preprocessing庫中的imputer類完成這步操作。

第四步：解析分類資料

分類資料指的是含有標籤值而不是數字值的變數。取值範圍通常是固定的。例如「yes」和「no」不能用於模型的數學計算，所以需要解析成數字。為實現這一功能，我們從sklearn.preprocessing庫中匯入labelencoder類。

第五步：拆分資料集為訓練集合和測試集合

把資料集拆分成兩個：乙個是用來訓練模型的訓練集合，另乙個是用來驗證模型的測試集合。兩者的比例一般是80：20。我們匯入sklearn.crossvalidation庫中的train_test_split()方法。

第六步：特徵縮放

大部分模型演算法使用兩點之間的歐幾里得距離表示，但此特徵在幅度、單位和範圍姿態問題上變化很大。在距離計算中，高幅度的特徵比低幅度特徵權重更大。可用特徵標準化或z值歸一化解決。匯入sklearn.preprocessing庫中的standardscalar類。