特徵工程與表示學習 人工 vs 自動

2021-08-25 22:34:19 字數 2218 閱讀 3845

正因為資料表示的重要性,機器學習一般有兩種思路來提公升原始資料的表達:

特徵學習(featurelearning),又叫表示學習(representation learning)或者表徵學習,一般指的是自動學習有用的資料特徵

特徵工程(featureengineering),主要指對於資料的人為處理提取,有時候也代指「洗資料」

不難看出,兩者的主要區別在於前者是「學習的過程」,而後者被認為是一門「人為的工程」。用更加白話的方式來說,特徵學習是從資料中自動抽取特徵或者表示的方法,這個學習過程是模型自主的。而特徵工程的過程是人為的對資料進行處理,得到我們認為的、適合後續模型使用的樣式。根據這個思路,機器學習模型對於資料的處理可以被大致歸類到兩個方向:

1. 表示學習:模型自動對輸入資料進行學習,得到更有利於使用的特徵(*可能同時做出了**)。代表的演算法大致包括:

2. 特徵工程:模型依賴人為處理的資料特徵,而模型的主要任務是**,比如簡單的線性回歸期待良好的輸入資料(如離散化後的資料)

總結:要想自動學習到資料的良好表達,就需要大量的資料。這個現象也解釋了為什麼「特徵工程」往往在中小資料集上表現良好,而「表示學習」在大量複雜資料上更有用武之地。

---------------------------------頁面分割線-------------------------------------

參考原文:

1.是不是自動的特證抽取(表示學習)總是更好?

答案是不一定的:

1.在資料量不夠的時候,自動特徵抽取的方法往往不如人為的特徵工程

2,當使用者對於資料和問題有深刻的理解時,人工的特徵工裎注注效果更好。

同時也值得注意,表示字習的另一好處是高度抽象化的特徵注往可以被應用於相關的領域上,這也是我們常說的遷移學習(transferlearning)的思路。比如有了大量貓的以後,不僅可以用於**—個物體是不是貓,也可以用於將抽取到的特徵再運用於其它類似的領域從而節省資料開銷。

2.特徵學習(表示學習),特證工程,特證選擇,維度壓縮之間有什麼關係?

從某個角度來看,表示學習有"嵌入式的特徵選擇"(embeddedfeatureselection)的特性,其表示學習嵌入到了模型中。舉個簡單的例子,決策樹模型在訓練過裎中可以同時字習到不同特徵的重要性,而這個過程是建模的一部分,是一種嵌入式的特徵選擇。

巧合的看,表示學習也是一種嵌入表示(embeddedrepresentation)。如維度壓縮方法pca,也是一種將高維資料找到合適的低維嵌入的過程,前文提到的word2vec也是另一種"嵌入''。至於這種"嵌入"是否必須是高維到低維,不一定,但往往是因為特徵被抽象化了。以上提到的兩種嵌入一種是對於模型的嵌入,一種是在維度上的嵌入,一種是名字上的巧合。

3.理解不同資料處理方法對於我們有什麼幫助?

首先對於模型選擇有一定的幫助:

當我們資料量不大,且對於資料非常理解時,人為的特徵處理也就是特徵工程是合適的。比如去掉無關資料,選擇適合的資料,合併資料,對資料離散化等。

當資料量較大或者我們的人為先驗理解很有限時可以嘗試表示學習,如依賴一氣呵成的深度學習,效果往往不錯。

4.為什麼有的模型擁有表示學習的能力,而有的沒有?

這個問題需要分模型討論。以深度字習為例,特徵學習是一種對於模型的理解,並不是唯一的理解,而為什麼泛化效果好,還缺乏系統的理論研究。

5.特徵工程指的是對於資料的清理,和學習有什麼關係?

如果所使用的模型擁有對於資料的簡化、特證表示和抽取能力,我們都可以認為它是有表示學習的特性。而狹義的特證工程指的是處理缺失值,特徵選擇,維度壓縮等各種預處理手段,而從更大的角度看主要目的是提高資料的表示能力。對於資料的人為提煉使其有了更好的表達,這其實是人工的表示宇習。

---------------------------------頁面分割線-------------------------------------

表示學習與特徵工程

當我們進行機器學習演算法時,首先做的第一步是對資料進行提取特徵,而在機器學習中一般有兩種思路來提公升原始資料的表達 1.表示學習 為了提高機器學習系統的準確率,我們就需要將輸入資訊轉換為有效的特徵,或者更一般性稱為表示。如果有一種演算法可以自動地學習出資料有效的特徵,並提高最終機器學習模型的效能,那...

Python與機器學習 5 1 特徵工程

在機器學習之前,要對資料進行預處理,其中就包括特徵工程。特徵可以分為數值型特徵,有序型特徵和類別型特徵,對不同的特徵有不同的處理方法。注意,在測試集上的scaler和訓練集上的scaler要保持一致 不要在訓練集和測試集分別使用不同的scaler 同理,對於one hot encoding,也是一樣...

機器學習 特徵工程之子集搜尋與評價

1 特徵 描述目標物件的屬性 2 特徵型別 b 無關特徵 對於當前學習任務無用的屬性,即與目標物件無關的特徵 c 冗餘特徵 其包含的資訊可通過其它特徵推演 4 特徵選擇的理由 a 緩解維數災難問題,該動機類似於特徵降維 b 去除不相關特徵往往會降低學習任務的難度 1 背景 從初始特徵集合中選取乙個包...