機器學習中的特徵工程總結一

俗話說「磨刀不誤砍材工」，在機器學習領域，進行特徵工程相關的工作就相當於磨刀了。那麼，什麼是特徵工程呢？通俗來講，特徵工程就是為了使模型在未知資料集上獲得更好**精度而對原始資料集進行轉換的一系列過程。

特徵工程的具體過程則由以下四點決定：

1、評估模型優劣的方法、指標是什麼？(rmse還是auc等)

2、要解決的問題屬於分類問題還是回歸問題..

3、具體使用的模型是什麼？(決策樹、svm還是什麼)

4、原始資料的形態？是否抽樣、是否為結構化資料？是否進行了資料清理等

一、特徵提取，從原始資料中自動構造新特徵：

通常得到的原始資料，比如音訊、影象、文字等，使用列表資料表示時，其原始特徵集通常可大數百萬維。如此高的維數，怎麼將它的維數減小並利於建模，就是特徵提取需要做的事情了。特徵提取的方法因具體領域而不同，對於列表資料，可以使用pca、cca等方法進行降維，提取重要的特徵表示；對於影象音訊資料，小波分析、傅利葉分析等訊號處理領域的一些通用方法都可以借鑑。

二，特徵選取，從大量特徵中選取有有用的特徵：

通常經過特徵提取步驟得到的特徵量依然較大，在大量特徵中，需要識別出哪些特徵有利於提高模型質量。一般從一下三方面進行考慮：1、特徵與待解決問題的相關性 2、特徵對模型精度的影響 3、特徵彼此間存在的冗餘性。從這三個方面考慮後，將一些不必要的特徵從特徵集中去除，將得到乙個更優質的特徵集。一些通用的方法包括：1、使用卡方檢驗獲得特徵與待解決問題間的相關性，2、使用決策樹選取分類、回歸精度高的特徵 3、使用皮爾遜相關係數檢驗特徵間的相關性。去除冗餘性。

三，特徵構造：由人工從原始資料集中構造出新特徵：

原始資料集中存在的部分模式、結構上的資訊，需要由人進行總結提取。對應於自動特徵提取，這一部分可以稱之為人工特徵提取。這一部分主要依賴於從業人員的經驗、直覺，同時可以借助一些統計工具、指標，進行探索性的提取新特徵。能不能有效果，就看機緣和人品了。

四，特徵學習，從原始資料集中自動識別和使用特徵：

特徵提取,特徵選取,特徵構造無不依賴於人工或定義特徵或定義獲得特徵的方法，同時原始資料集也依賴於人工方式進行轉換，特徵處理在建模過程中依然是個棘手的問題。目前主要借助深度學習的思路，使用自編碼或者受限波爾茲曼機來進行特徵提取。

總的來說，特徵工程怎麼做，還是取決於具體的資料和業務，做的好不好在，直接關係到模型的輸出效果。

機器學習中的特徵工程總結一

機器學習中的特徵工程總結一

機器學習中特徵工程總結

機器學習特徵工程（一）

機器學習中的特徵工程總結一

機器學習中的特徵工程總結一

機器學習中特徵工程總結

機器學習 特徵工程（一）

相關推薦

機器學習特徵工程（一）