特徵工程入門與實踐 3 特徵增強

第3章特徵增強：清洗資料

主要內容：

識別資料中的缺失值；

刪除有害資料；

輸入（填充）缺失值；

對資料進行歸一化/標準化；

構建新特徵；

手動或自動選擇（移除）特徵；

使用數學矩陣計算將資料集轉換到不同的維度。

3.1 識別資料中的缺失值

檢視資料集中是否有資料點是空的，用pandas dataframe內建的isnull()方法：

dataname.isnull().sum() 統計缺失值的數量

3.2處理資料集中的缺失值

主要的兩種處理方法：

刪除缺少值的行 dataname.dropna()

填充缺失值 dataname['列名'].fillna(['列名'].mean(),inplace = true) 也可以用sklearn預處理類的imputer模組（填充器）進行缺失值填充

資料集的每列均值： dataname.mean() 某列的均值 datanamme['列名'].mean()

特徵工程特徵工程入門與實踐（一）

特徵工程將資料轉換為能更好地表示潛在問題的特徵，從而提高機器學習效能。大體上，機器學習分為兩類評估分類問題，可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...

特徵工程入門與實踐筆記 sklearn

目錄一特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料二清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值醫學類資料禁用，因為要求真實 2 標準化歸一化三特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...

讀書筆記《特徵工程入門與實踐》

歸一化和標準化本書認為資料可以分為四大等級，分為是定類定序定距定比，其中定類和定序都是定性的資料，定距和定比是定量的資料。定類是離散的無序的，舉例人名油漆名稱動物物種猴子馬牛等定序是有序類別可以比較的，舉例考試等級 great good not bad bad等或 0 ...

特徵工程入門與實踐 3 特徵增強

特徵工程 特徵工程入門與實踐（一）

特徵工程入門與實踐 筆記 sklearn

讀書筆記 《特徵工程入門與實踐》

相關推薦

特徵工程特徵工程入門與實踐（一）

特徵工程入門與實踐筆記 sklearn

讀書筆記《特徵工程入門與實踐》