表示學習與特徵工程

當我們進行機器學習演算法時，首先做的第一步是對資料進行提取特徵，而在機器學習中一般有兩種思路來提公升原始資料的表達：

1.表示學習：

為了提高機器學習系統的準確率，我們就需要將輸入資訊轉換為有效的特徵，或者更一般性稱為表示。如果有一種演算法可以自動地學習出資料有效的特徵，並提高最終機器學習模型的效能，那麼這種學習就是可以叫做表示學習（representation learning），也叫特徵學習。

2.特徵工程：

主要指對於資料的人為處理提取特徵，有時候也代指「洗資料」。

不難看出，兩者的主要區別在於前者是「學習的過程」，而後者被認為是一門「人為的工程」。用更加白話的方式來說，表示學習是從資料中自動抽取特徵或者表示的方法，這個學習過程是模型自主的。而特徵工程的過程是人為的對資料進行處理，得到我們認為的、適合後續模型使用的樣式。總的來說，表示學習是讓機器自動提取特徵，而特徵工程是人為的提取特徵。

表示學習：模型自動對輸入資料進行學習，得到更有利於使用的特徵(*可能同時做出了**)。代表的演算法大致包括：

深度學習，包括大部分常見的模型如cnn/rnn/dbn/gcn等，

某些無監督學習演算法，如主成分分析(pca)及自編碼器（autoencoder）通過對資料轉化而使得輸入資料更有意義，

某些樹模型可以自動的學習到資料中的特徵並同時作出**。

特徵工程：模型依賴人為處理的資料特徵，而模型的主要任務是**，比如簡單的線性回歸期待良好的輸入資料(如離散化後的資料)。

參考文章

1.2.

表示學習與特徵工程

特徵工程與表示學習人工 vs 自動

特徵工程特徵工程入門與實踐（一）

機器學習特徵工程特徵篩選

表示學習與特徵工程

特徵工程與表示學習 人工 vs 自動

特徵工程 特徵工程入門與實踐（一）

機器學習 特徵工程 特徵篩選

相關推薦

特徵工程與表示學習人工 vs 自動

特徵工程特徵工程入門與實踐（一）

機器學習特徵工程特徵篩選