特徵選擇技術導論 以SVM RFE為例

2021-08-22 17:33:14 字數 958 閱讀 2039

一直覺得基於機器學習的資料探勘技術是很有意思的東西,尤其是以統計學習理論為基礎的svm技術更是讓人覺得充滿科學的創意。在一位優秀老師的指導下學習了一些這方面的皮毛,於是總想動筆寫下一點東西,算是與大家分享我的體會。就從我覺得最有意思的特徵選擇開始吧,說不定慢慢就寫成一篇不錯的review了。內容會有些學術,有些偏理論,我也會盡力的列出參考文獻。鑑於我也是菜鳥,有錯誤的話還請大家拍磚。

特徵選擇(feature selection)是一種很有實用價值的技術,本質上來說是一種為資料探勘消除資料雜訊的技術。但我們對某件事務進行判斷時,我們會根據以往的經驗根據某些資訊,而不是所有的資訊做出判斷。比如,判斷一輛車的品牌,我們會去看車頭車尾的標誌,更細緻一點會去看車的銘牌,因為這是最權威,也是最容易判斷車輛品牌的資訊。如果根據車的外形去判斷車輛的品牌就有可能把qq當作spark,把f3當作花冠;如果根據車的**去判斷,也會把奧迪和大奔弄混。也就是說,人做判斷時會選擇出最有效的資訊來做出自己的抉擇。

計算機在面對類似問題的卻無法根據已有的經驗去選擇最有效的資訊,而大量無效資訊對於計算機來說就是雜訊,反而會影響計算機的判斷結果。如果是前面對車輛品牌進行判斷的例子,還可以人工的選擇出最有效的資訊。但是如果面對的是dna序列、複雜的,那就只能依靠計算機了。於是這就誕生了特徵選擇技術,選出與結果最相關的特徵,從而提高判斷的準確率。

先列個提綱,有時間再來慢慢寫。歡迎拍磚,不屑於拍磚的也歡迎~~~

1. 什麼是特徵選擇?

1.1 特徵選擇的起源

1.2 特徵選擇的發展歷史

1.3 特徵選擇的研究現狀

2. 特徵選擇的分類及基本原理

3. svm以及svm-rfe的基本原理

3.1 統計學習和svm

3.2 svm-rfe的基本原理

4. svm-rfe的應用例項

3.1 svm-rfe的實現

3.2 資料的編碼和預處理

3.3 引數的選擇和二重交叉驗證

5. 特徵選擇的缺陷

技術學習 以實踐為導向

最近和同學討論了一些學習技術的問題,感覺很多人如果想學習某樣技術會立馬查一些經典的書籍然後抱著它慢慢地啃,然後心裡給自己暗示 只要啃完這本書就一定能成為 技術牛人了,可是真的是這樣嗎?我本科的時候也曾經這樣做過,可是沒有一本書是真正看完的,因為這些書往往都是非常的厚動輒700多頁,看到最後就沒動力了...

技術學習 以實踐為導向

最近和同學討論了一些學習技術的問題,感覺很多人如果想學習某樣技術會立馬查一些經典的書籍然後抱著它慢慢地啃,然後心裡給自己暗示 只要啃完這本書就一定能成為 技術牛人了,可是真的是這樣嗎?我本科的時候也曾經這樣做過,可是沒有一本書是真正看完的,因為這些書往往都是非常的厚動輒700多頁,看到最後就沒動力了...

WPF 自動選擇dll,以SQLite為例

在學習sqlite的過程中,發現它的dll是區分32位和64位的,起初覺得很惱火,但是仔細看了下,發現讓程式自行選擇dll其實也不是一件很麻煩的事情,如下 1 建立乙個sqlite資料 2 建立乙個工程 3 新建乙個類 1 class 213 file.copy dll64,dllpath,true...