機器學習中的特徵工程的處理過程

2021-08-28 03:15:07 字數 1772 閱讀 8803

1.特徵工程的含義

特徵工程具體含義:通過一系列的工程活動,將這些資訊使用更高效的編碼方式(特徵)表示。使用特徵表示的資訊,資訊損失較少,原始資料中包含的規律依然保留。編碼方式還需要儘量減少原始資料中的不確定因素(白雜訊、異常資料、資料缺失…等等)的影響。

2.特徵工程的目的

特徵工程的目的:如何將原始的資料處理成合格的資料輸入。

3.特徵工程的意義

特徵工程,是機器學習系列任務中最耗時、最繁重、最無聊卻又是最不可或缺的一部分。有這麼一句話:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。

特徵工程分為很多步驟,大致可以總結為下圖:

(二)特徵工程的大致過程

1.異常資料的清洗和樣本的選取

最簡單的方法是使用肉眼觀察的辦法來判斷資料的合理性,工業中,更多採用演算法或者公式對資料的是否異常進行判斷。

(1) 結合業務情況進行過濾:比如去除crawler抓取,spam,作弊等資料

(2) 異常點檢測採用異常點檢測演算法對樣本進行分析,常用的異常點檢測演算法包括

a:偏差檢測:聚類、最近鄰等

b:基於統計的異常點檢測

例如極差,四分位數間距,均差,標準差等,這種方法適合於挖掘單變數的數值型資料。全距(range),又稱極差,是用來表示統計資料中的變異量數(measures of variation) ,其最大值與最小值之間的差距;四分位距通常是用來構建箱形圖,以及對概率分布的簡要圖表概述。

c:基於距離的異常點檢測

主要通過距離方法來檢測異常點,將資料集中與大多數點之間距離大於某個閾值的點視為異常點,主要使用的距離度量方法有絕對距離 ( 曼哈頓距離 ) 、歐氏距離和馬氏距離等方法。

d:基於密度的異常點檢測

考察當前點周圍密度,可以發現區域性異常點,例如lof演算法

2.資料預處理

通過特徵提取,我們能得到未經處理的特徵,這時的特徵可能有以下問題:

a:不屬於同一量綱:即特徵的規格不一樣,不能夠放在一起比較。無量綱化可以解決這一問題。

無量綱化:無量綱化使不同規格的資料轉換到同一規格。常見的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈。區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如[0, 1]等。

1.標準化:常用的方法是z-score標準化,經過處理後的資料均值為0,標準差為1,

處理方法依據公式:

公式中,x』是標準化後的特徵,x是原始特徵值, u是樣本均值,

2.區間縮放法:通過對原始資料進行線性變換把資料對映到[0,1]之間,

處理方法依據公式為:

其中 min 是樣本中最小值, max是樣本中最大值,注意在資料流場景下最大值與最小值是變化的。另外,最大值與最小值非常容易受異常點影響,所以這種方法魯棒性較差,只適合傳統精確小資料場景。

3.歸一化:依照特徵矩陣的行處理資料,其目的在於樣本向量在點乘運算或其他核函式計算相似性時,擁有統一的標準,也就是說都轉化為「單位向量」。

歸一化公式為:

參考的文章包括如下:

【特徵工程】

【特徵工程之特徵表達】

【機器學習–資料清洗與特徵選擇】

機器學習 特徵工程 特徵預處理

定義 將原始資料轉換為更好地代表 模型的潛在問題的特徵的過程,從而提高了對未知資料的 準確性。內容 主要有三部分 1 特徵抽取 2 特徵預處理 3 資料的降維 特徵預處理 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。1 包含內容 2 sklearn特徵處理api sklearn.pr...

機器學習特徵工程之特徵預處理

通過特定的統計方法 數學方法 講資料轉換成演算法要求的資料。數值型資料 歸一化標準化 缺失值類別型資料 one hot編碼 時間型別 時間的切分 在對資料進行異常值 缺失值 資料轉換等處理後,我們需要從當前資料集中選出有意義的特徵,然後輸入到演算法模型中進行訓練。對資料集進行特徵選擇主要基於以下幾方...

機器學習中的特徵工程詳解

1.1 探索性資料分析 exploratory data analysis 描述性分析 descriptive analysis 常用的函式有 呼叫pandas包 head info describe isnull corr 等 1.2 四種資料級別 2.1 缺失值處理 注意 缺失值的填補應該在劃分...