第十一章 特徵選擇和稀疏學習

2021-08-15 02:07:15 字數 1746 閱讀 6854

11.1子集搜尋和評價

所謂子集搜尋就是乙個物體有很多屬性,但是對當前學習任務來說,可能只有少部分屬性是重要的,這叫「相關特徵」,沒什麼用的叫「無關特徵」。從特徵集中選出「相關特徵」叫特徵選擇。

兩個原因要特徵選擇:維數災難、降低學習難度。

兩個關鍵環節:

1、如何根據評價結果取獲取下乙個候選特徵子集?

前向搜尋/後向搜尋/雙向搜尋

2、如何評價特徵子集好壞?

計算資訊增益。

決策樹演算法即是吧資訊增益和前向搜尋結合,是一種特徵選擇方法。

常見特徵選擇方法:過濾式、包裹式、嵌入式

11.2 過濾式選擇

即先特徵選擇,後訓練學習器。

代表:relief

分量值越大,代表該屬性分類能力越強。

只需在資料集的取樣上而不用在整個資料集上估計相關統計量。

擴充套件體relif-f能處理多分類問題。

11.3包裹式選擇

包裹式選擇直接把最終要使用的學習器的效能作為特徵子集的評價標準。

從效能來看是要優於過濾式,但計算開銷大。

代表:lvw。

演算法描述:

如果執行時間有限制,可能給不出解。

11.4嵌入式選擇與l1正則化

將特徵選擇與學習器訓練融為一體。

優化目標:l2正規化正則化

如果用l1正規化正則化(lasso):

l1比l2更容易獲得「稀疏」解。

l1正則化問題的求解可以用近端梯度下降法。

最終閉式解:

i表示x(k+1)和z的第i個分量。

11.5 稀疏學習和字典表示

當樣本資料是乙個稀疏矩陣時,對學習任務來說會有不少的好處,例如很多問題變得線性可分,儲存更為高效等。這便是稀疏表示與字典學習的基本出發點。稀疏矩陣即矩陣的每一行/列中都包含了大量的零元素,且這些零元素沒有出現在同一行/列,對於乙個給定的稠密矩陣,若我們能通過某種方法找到其合適的稀疏表示,則可以使得學習任務更加簡單高效,我們稱之為稀疏編碼(sparse coding)或字典學習(dictionary learning)。

給定乙個資料集,字典學習/稀疏編碼指的便是通過乙個字典將原資料轉化為稀疏表示,因此最終的目標就是求得字典矩陣b及稀疏表示α,使用變數交替優化的策略能較好地求得解。

11.6 壓縮學習

壓縮感知在前些年也是風風火火,與特徵選擇、稀疏表示不同的是:它關注的是通過欠取樣資訊來恢復全部資訊。在實際問題中,為了方便傳輸和儲存,我們一般將數字資訊進行壓縮,這樣就有可能損失部分資訊,如何根據已有的資訊來重構出全部訊號,這便是壓縮感知的來歷,壓縮感知的前提是已知的資訊具有稀疏表示。下面是關於壓縮感知的一些背景:

第十一章 特徵選擇與稀疏學習

11.1子集搜尋與評價 1 特徵選擇 我們將屬性稱為 特徵 對當前學習任務有用的特徵稱為 相關特徵 沒有什麼用的屬性稱為 無關特徵 從給定集合中選擇出相關特徵子集的過程,稱為 特徵選擇 2 在機器學習任務中,先進行特徵選擇,再訓練學習器的原因 1 我們在現實任務中經常會遇到維數災難問題,這是由於屬性...

讀書筆記《機器學習》 第十一章 特徵選擇與稀疏學習

11.1 子集搜尋與評價 11.2 過濾式選擇 11.3 包裹式選擇 11.4 嵌入式選擇與l1正則化 11.5 稀疏表示與字典學習 11.6 壓縮感知 特徵選擇 feature selection 從給定的特徵集合中選擇出相關特徵子集的過程。是乙個重要的資料預處理 data preprocessi...

modern c design 第十一章

本章介紹了經常遇到的雙分派的一種泛型解決方案。c 在語法上實現了單分派,即虛函式,通過動態機制選擇相應的函式。雙分派是形如fun object1 a,object2 b 根據a和b的實際型別動態自動分派乙個處理函式。最容易想到的方案,蠻幹法 寫一大堆過載函式.不過這種方法會有很強的依賴性。也提供了一...