機器學習實踐之特徵工程

2021-08-15 04:01:10 字數 1917 閱讀 1946

特徵工程是機器學習任務中非常核心的部分,特徵工程質量的好壞直接影響著模型訓練結果的好壞。

常見的特徵工程可以分為特徵抽象特徵重要性評估特徵衍生特徵降維等幾個方面。

特徵抽象是指將原始資料抽象成演算法(或模型)可以理解的資料。針對不同的資料型別,主要有如下特徵抽象方法:

(1)時間戳。主要是針對具有鮮明時間序列的特徵資料,將源資料中的年月日格式(或其他格式)的資料轉換成以某一天為基準的數字(如2017-01-01為1)。這樣可以將兩個日期之間的時間段表示為兩個日期數字的差值。

(2)二值類問題。二值類資料較為容易處理,比如說可以將使用者性別是男還是女、使用者是否購買了某件商品、使用者的信用是否良好分別賦值為1和0。

(3)多值有序類問題。多值有序資料往往可以反映特徵的輕重緩急程度。如考核資料中成績特徵有不合格、合格、良好、優秀等維度,信用資料中使用者信用等級特徵有較差、一般、良好、優秀等維度,辦公事務中的待辦事務特徵有一般、加急、特急等維度。針對這類特徵資料,可以將其不同維度的資料賦值為0、1、2、3。

在通過特徵抽象得到一組演算法(或模型)可以理解的特徵資料之後,有時候還需要了解每個特徵對模型訓練效果的影響程度大小,進而對不同的特徵賦予不同的權重,這樣能夠有效提高模型訓練效果。常見的特徵重要性評估方法有回歸模型係數資訊熵。如下所示:

(1)回歸模型係數評估法。此種方法主要針對線性模型。首先,對特徵資料執行歸一化操作,然後根據邏輯回歸模型係數的大小評估各特徵的重要性大小。

(2)資訊熵評估法。資訊熵評估法的基礎來自資訊增益原理,其評估特徵重要性的標準是看該特徵能為模型帶來多少資訊,帶來的資訊越多,則該特徵越重要,為其賦予的權重越高。

特徵衍生是指利用現有的特徵進行某種組合,生成新的具有特定含義的特徵。新生成的特徵對目標列的影響大小可以通過特徵重要性評估來獲得。

例如,現有乙份使用者在某電商平台上的購物行為資料,如下表所示:

使用者id

產品id

購物行為

日期101100

6月5日

10211

02月3日

10312

17月8日

10413

09月10日

10514

18月15日

任務目標:通過上面的這份資料(1-9月的購物資料),**在接下來的3個月(10-12月)裡使用者會購買哪些產品。

為了能夠達成既定目標,上面已有資料所具有的特徵維度是遠遠不夠的,所以可以通過特徵衍生的方式來構造一些重要的衍生特徵。

特徵降維是一種從高維度資料中挖掘關鍵字段資訊的技術。在保留原始資料中大部分關鍵資訊的前提下,還達到了降低資料維度、減少資料雜訊和計算量的作用,尤其適用於影象識別和文字分析領域。常見的特徵降維技術主要有以下幾種:

(1)主成分分析。主成分分析(principal component analysis,pca)通過線性對映投影的方法,將高維的資料對映到了低維空間中,在投影過程中盡可能保證投影維度上的資料方差最大。

(2)線性判別分析。線性判別分析(linear discriminant analysis,lda)的基本思想是將高維的模式樣本投影到最佳鑑別向量空間,以達到抽取分類資訊和壓縮特徵空間維數的效果。投影後保證模式樣本在新的子空間中有最佳的可分離性,即有最大的類間距離和最小的類內距離。

(3)區域性嵌入分析。區域性嵌入分析(locally linear embedding,lle)是一種非線性降維方法,能夠保持資料的流形結構。

機器學習之特徵工程

在工業界一直流行著一句話,資料的質量決定了模型的上線了,而特徵工程與模型的選擇只是盡可能的去逼近這個上線,當我們在資料無法改變的情況,特徵工程的優化便顯得尤為重要。我們輸入模型中,模型只認識資料,並不知道某一列所代表的含義,例如樹模型,它只會按照一定的規則去不停的分支,並不知道分支所代表的含義,而特...

機器學習之特徵工程

特徵工程是將原始資料轉化為更好代表 模型的潛在問題的特徵的過程,從而提高了對位置資料的 準確性。其包括特徵構建 特徵提取 特徵選擇三部分。資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已,成功的結果往往源自最開始對資料的處理。tf term frequency,詞的頻率,即出現的次...

機器學習之特徵工程

一 特徵抽象 特徵抽象是指將資料來源抽象演算法可以理解的資料,我們期望的資料是一組可以表達資料某種特性的數字。下面對幾種資料型別抽象舉例 1 時間戳 以某一天為基準值,採用演算法算出某數值,其他的採用和該基準值的差距。2 二值類問題 文字或其他描述的二值問題,可以量化為0和1表示。3 多值有序問題 ...