特徵工程入門與實踐 3 特徵增強

2022-03-28 04:38:05 字數 530 閱讀 7464

第3章 特徵增強:清洗資料

主要內容:

識別資料中的缺失值;

刪除有害資料;

輸入(填充)缺失值;

對資料進行歸一化/標準化;

構建新特徵;

手動或自動選擇(移除)特徵;

使用數學矩陣計算將資料集轉換到不同的維度。

3.1 識別資料中的缺失值

檢視資料集中是否有資料點是空的,用pandas dataframe內建的isnull()方法:

dataname.isnull().sum()  統計缺失值的數量

3.2處理資料集中的缺失值

主要的兩種處理方法:

刪除缺少值的行  dataname.dropna()

填充缺失值  dataname['列名'].fillna(['列名'].mean(),inplace = true)   也可以用sklearn預處理類的imputer模組(填充器)進行缺失值填充

資料集的每列均值: dataname.mean()   某列的均值 datanamme['列名'].mean()

特徵工程 特徵工程入門與實踐(一)

特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...

特徵工程入門與實踐 筆記 sklearn

目錄 一 特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料 二 清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值 醫學類資料禁用,因為要求真實 2 標準化 歸一化 三 特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...

讀書筆記 《特徵工程入門與實踐》

歸一化和標準化 本書認為資料可以分為四大等級,分為是 定類 定序 定距 定比,其中定類和定序都是定性的資料,定距和定比是定量的資料。定類是離散的 無序的,舉例 人名 油漆名稱 動物物種 猴子 馬 牛等 定序是有序類別 可以比較的,舉例 考試等級 great good not bad bad等或 0 ...