特徵工程與表示學習人工 vs 自動

正因為資料表示的重要性，機器學習一般有兩種思路來提公升原始資料的表達：

特徵學習(featurelearning)，又叫表示學習(representation learning)或者表徵學習，一般指的是自動學習有用的資料特徵

特徵工程(featureengineering)，主要指對於資料的人為處理提取，有時候也代指「洗資料」

不難看出，兩者的主要區別在於前者是「學習的過程」，而後者被認為是一門「人為的工程」。用更加白話的方式來說，特徵學習是從資料中自動抽取特徵或者表示的方法，這個學習過程是模型自主的。而特徵工程的過程是人為的對資料進行處理，得到我們認為的、適合後續模型使用的樣式。根據這個思路，機器學習模型對於資料的處理可以被大致歸類到兩個方向：

1. 表示學習：模型自動對輸入資料進行學習，得到更有利於使用的特徵(*可能同時做出了**)。代表的演算法大致包括：

2. 特徵工程：模型依賴人為處理的資料特徵，而模型的主要任務是**，比如簡單的線性回歸期待良好的輸入資料(如離散化後的資料)

總結：要想自動學習到資料的良好表達，就需要大量的資料。這個現象也解釋了為什麼「特徵工程」往往在中小資料集上表現良好，而「表示學習」在大量複雜資料上更有用武之地。

---------------------------------頁面分割線-------------------------------------

參考原文：

1.是不是自動的特證抽取(表示學習)總是更好?

答案是不一定的：

1.在資料量不夠的時候，自動特徵抽取的方法往往不如人為的特徵工程

2,當使用者對於資料和問題有深刻的理解時，人工的特徵工裎注注效果更好。

同時也值得注意，表示字習的另一好處是高度抽象化的特徵注往可以被應用於相關的領域上，這也是我們常說的遷移學習(transferlearning)的思路。比如有了大量貓的以後，不僅可以用於**—個物體是不是貓，也可以用於將抽取到的特徵再運用於其它類似的領域從而節省資料開銷。

2.特徵學習(表示學習)，特證工程，特證選擇，維度壓縮之間有什麼關係？

從某個角度來看，表示學習有"嵌入式的特徵選擇"（embeddedfeatureselection)的特性，其表示學習嵌入到了模型中。舉個簡單的例子，決策樹模型在訓練過裎中可以同時字習到不同特徵的重要性，而這個過程是建模的一部分，是一種嵌入式的特徵選擇。

巧合的看，表示學習也是一種嵌入表示(embeddedrepresentation)。如維度壓縮方法pca,也是一種將高維資料找到合適的低維嵌入的過程，前文提到的word2vec也是另一種"嵌入''。至於這種"嵌入"是否必須是高維到低維，不一定，但往往是因為特徵被抽象化了。以上提到的兩種嵌入一種是對於模型的嵌入，一種是在維度上的嵌入，一種是名字上的巧合。

3.理解不同資料處理方法對於我們有什麼幫助？

首先對於模型選擇有一定的幫助：

當我們資料量不大，且對於資料非常理解時，人為的特徵處理也就是特徵工程是合適的。比如去掉無關資料，選擇適合的資料，合併資料，對資料離散化等。

當資料量較大或者我們的人為先驗理解很有限時可以嘗試表示學習，如依賴一氣呵成的深度學習，效果往往不錯。

4.為什麼有的模型擁有表示學習的能力，而有的沒有?

這個問題需要分模型討論。以深度字習為例，特徵學習是一種對於模型的理解，並不是唯一的理解，而為什麼泛化效果好，還缺乏系統的理論研究。

5.特徵工程指的是對於資料的清理，和學習有什麼關係？

如果所使用的模型擁有對於資料的簡化、特證表示和抽取能力，我們都可以認為它是有表示學習的特性。而狹義的特證工程指的是處理缺失值，特徵選擇，維度壓縮等各種預處理手段，而從更大的角度看主要目的是提高資料的表示能力。對於資料的人為提煉使其有了更好的表達，這其實是人工的表示宇習。

---------------------------------頁面分割線-------------------------------------

特徵工程與表示學習人工 vs 自動

表示學習與特徵工程

Python與機器學習 5 1 特徵工程

機器學習特徵工程之子集搜尋與評價

特徵工程與表示學習 人工 vs 自動

表示學習與特徵工程

Python與機器學習 5 1 特徵工程

機器學習 特徵工程之子集搜尋與評價

相關推薦

特徵工程與表示學習人工 vs 自動

機器學習特徵工程之子集搜尋與評價