機器學習之特徵向量選取

本系列介紹機器學習中的在實際應用和理論研究中的一些重要的方向。這些文章能給大家起到拋磚引玉的作用。一些細節或者深入的討論可在每篇博文最後列出的文獻中找到。本篇博文介紹特徵向量選取。在機器學習中，特種向量選取是整個機器學習系統中非常重要的一步。

1. 特徵向量選取 vs. 特徵向量提取

請注意特徵向量的選取有別於特徵向量提取。前者的英文是feature selection, 而後者是feature extraction. 特徵向量提取是直接作用於原始資料上的。比如，給定一組文件，我們的任務是要做文件分類。直接將文件輸入給分類器是無法工作的，因為每篇文件有不同的字不一樣，字的數目也不一樣。而絕大多數的分類器只是接受標準化的矩陣格式的輸入，比如每一行是一篇文件，每一列是文件的屬性（特徵）。將原始文件轉化為標準的矩陣格式輸入的過程就可看作是特徵向量提取。特徵向量提取之後，通常特徵向量的個數非常多，並且包含有很多沒有用的特徵（或者說對後邊的分類器沒有用），也包含了許多冗餘的特徵向量。此時，從特徵向量提取後所得的特徵向量中，選擇對分類器最有用的和最重要的特徵向量的過程就叫做特徵向量選取。

2. 非線性特徵向量選取 vs sparse coding

如今比較火的機器學習的演算法（lasso，sparse svm等）在實現**的同時，也聲稱可以實現特性向量選取。其實質便是在特徵向量的權重係數上加上了l0-norm或者更便於計算的l1-norm。即所謂的sparse coding的技術。類似的方法還有dictionary learning 和factorization model。儘管dictionary learning 和factorization model當中的dictionary/basis已經不是原始的特徵向量，但是他們在學dictionary/bais的係數時，也是採用了sparse coding的約束。但是，值得一提的是這些方法在提取特徵向量時，只能挖掘特徵向量之間的線性關係。當特徵向量具有非線性相關的時候，這一類方法便失去了功效。

最經典的特徵向量非線性相關的例子便是xor問題（如下圖所示）。特徵向量x1和x2單獨來看的話，他們對於區分class1和class2都不起作用。因此他們對於sparse coding的方法，都將被視為是不相關的特徵向量。然而，對於非線性特徵向量選取的方法（文獻），特徵向量x1和x2將被聯合起來一起分析其重要程度，因此他們都將被選作重要的特徵向量。

後續及參考文獻

關於特徵向量選取的系統介紹，看參考jianbo yang的博士**。此人 ( 現在在杜克大學做博后。對於過濾法和封裝法他都提出過自己的方法。其中封裝法與神經網路，支援向量機做結合。其研究成果發表於tnn和kdd等期刊與會議。

[1] jian-bo yang, 「feature selection and model selection for supervised learning algorithms」 phd thesis, 2011.

[2] guyon and a. elisseeff. "an introduction to variable and feature selection".journal of machine learning

research, 2003

機器學習之特徵向量選取

機器學習4 特徵向量與特徵值

機器學習之特徵組合特徵交叉

機器學習之 Hog特徵

機器學習之 特徵向量選取

機器學習4 特徵向量與特徵值

機器學習之特徵組合 特徵交叉

機器學習 之 Hog特徵

相關推薦

機器學習之特徵向量選取

機器學習之特徵組合特徵交叉

機器學習之 Hog特徵