資料探勘 特徵工程

2022-03-02 15:18:38 字數 517 閱讀 1970

特徵工程

常見的特徵工程包括:

總結

1、特徵工程的主要目的是將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習的效能。比如,異常值處理為了去除雜訊,填補缺失值可以加入先驗知識等。

2、特徵構造屬於特徵工程的一部分,目的是為了增強資料的表達。

3、如果特徵是匿名特徵,並不知道特徵相互之間的關聯性,這時只能單純基於特徵進行處理,比如裝箱,groupby,agg等操作進行特徵統計,此外還可以對特徵進行進一步的log,exp等變換,或者對多個特徵進行四則運算、多項式組合等然後進行篩選。由於特徵的匿名性限制了很多對於特徵的處理,不過有時候也可以使用nn來提取一些特徵,會達到意想不到的良好效果。

4、如果知道特徵含義(非匿名性),可以基於訊號處理、頻域提取、峰度、偏度等構建更為有實際意義的特徵,這是結合背景的特徵構建。

資料探勘之特徵工程

標籤編碼與獨熱編碼 onehotencoder獨熱編碼和 labelencoder標籤編碼 資料探勘的基本流程 多項式特徵 特徵構建 生成多項式特徵 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 資料預處理與特徵選擇 特徵工程到底是什麼?機器學習中的資料清洗與特徵處理綜述 sklearn ...

資料探勘之特徵工程

是對原始資料進行一系列工程處理,將其提煉為特徵,作為輸入供演算法和模型使用。從本質上來講,特徵工程是乙個表示和展現數 據的過程。在實際工作中,特徵工程旨在去除原始資料中的雜質和冗餘,設計更 高效的特徵以刻畫求解的問題與 模型之間的關係。特徵工程有很多的方法,其中比較常見的有 為了消除資料特徵之間的量...

資料探勘實戰(二) 特徵工程

一 特徵衍生 二 特徵選擇 利用iv值做特徵選擇 2.1 woe 2.2 iv 一 特徵衍生 利用個人 專家 經驗來提取出資料裡對結果影響更大的特徵,往往是原有資料特徵字段通過加減乘除等操作生成新的字段,這些欄位在結合一些線性演算法做訓練的時候往往能起到提公升模型效果的作用。舉例,使用者點外賣,同一...