特徵工程筆記

2021-08-28 17:46:36 字數 921 閱讀 5363

雖然說特徵工程很大程度上是經驗工程,跟具體業務相關,但是我們可以根據一些思路來進行,以下是我在實踐過程中總結出來的一些思路,希望能給大家帶來一點啟發。

使用資料視覺化工具對資料進行概覽

0.1 對原始資料進行概覽

常用的概覽方法:

dataset.describe(): 檢視每種屬性的總數,平均值,標準差,25%,50%,75%

dataset.series.value_counts(): 按值聚合檢視值的數量分布,僅作用於series

dataset.head(n): 檢視資料集的前n行

0.1.1 檢視空資料|處理空資料

檢視空資料總數

data.isnull().sum()
定位空資料:

dataset.loc[dataset.col_name.isnull(),'col_name']=data_to_fill
解決空資料的方法:

空資料太多,直接去掉

填充 平均數/眾數/最多的值

0.2 使用圖表進行概覽

常用圖表有:

條形圖 countplot barplot

餅狀圖 pie

散點圖 scatter

分布圖(seaborn.distplot)

熱力圖+協方差矩陣 heatmap

對比圖 pairgrid 使用完熱力圖後將與目標屬性最相關的幾個屬性做乙個對比圖,兩兩對比

根據相關領域的經驗和概覽得到的資訊,決定怎麼對屬性進行組合比較合適
原始屬性

四則運算

求和求增幅

求眾數,方差,極差

特徵交叉組合

幾點tips:

特徵工程 筆記

常用的兩種資料型別 1 結構化資料。結構化資料型別可以看作關係型資料庫的一張表,每一列都有清晰的定義,包含數值型 類別型兩種基本型別,每一行資料代表乙個樣本資訊 為了消除資料特徵之間的量綱影響,我們需要對特徵進行歸一化處理,使的不同指標之間具有可比性,否則分析出來的結果會傾向於數值差別比較大的特徵 ...

DS ML 特徵工程筆記

ds ml 關聯分析筆記 ds ml 分類演算法筆記之支援自動機svm模型 ds ml 分類演算法筆記之隨機森林 梯度提公升樹 xgboost模型 ds ml 分類演算法筆記之k 近鄰 kd tree模型 ds ml 降維演算法筆記之主成分分析pca模型 ds ml 分類演算法筆記之樸素貝葉斯模型 ...

機器學習 特徵工程筆記

對於某個特定任務來說,如何找到最佳資料表示,稱之為特徵工程 feature engineering 分類變數 one hot編碼與dummy variable python 實現在我另一篇部落格連線 連續變數離散化 特徵離散化 discretization 也叫分箱 bining 與上文不同的是,離...