西瓜書第11章特徵選擇與稀疏學習

特徵選擇是乙個重要的資料預處理過程，去除不相關的屬性，可以減輕維數災難，並且降低學習任務的難度。

特徵選擇過程必須確保不丟失重要特徵。

需要去除的特徵如無關特徵和冗餘特徵（冗餘特徵有時能簡化問題，具體問題具體分析）。

1、子集搜尋

前向搜尋：假定特徵子集最優，再把與剩餘的各個特徵子集組合出評估，如果最優，則保留，再用進行下一輪組合，直至迭代到得不到優化為止。

後向搜尋：從完整的特徵集合開始，每次嘗試去掉乙個無關特徵，類似前向每次增加最優的乙個，而後向是每次去掉最差的乙個。

雙向搜尋：結合前後向搜尋。

上述策略都是貪心的，如果沒有窮舉搜尋，則無法找出全域性最優組合。

2、子集評價

通過資訊增益、不合度量、相關係數等度量對特徵子集進行優劣的評估。

如將前向搜尋和資訊熵組合，與決策樹演算法非常相似。

1、過濾式選擇

先選擇，後訓練。

代表演算法：relief（適用於二分類問題）、relief-f（適用於多分類問題）

2、包裹式選擇

訓練出的學習器效能作為特徵子集的評價標準，效果更佳，但開銷大。

代表演算法：lvw，開銷大，可給定終止條件t。

3、嵌入式選擇

特徵選擇和訓練過程再同乙個優化過程中完成，即：在訓練過程中自動進行特徵選擇

稀疏效能使大多數問題變得線性可分。

要恰當稀疏不要過度稀疏。

字典學習（稀疏編碼）：為普通稠密表達的樣本找到合適的字典，將樣本轉化為合適的稀疏表示形式。

字典學習更側重於學得字典的過程，稀疏編碼更側重於對樣本進行稀疏表達的過程。

通過設定詞彙量k的大小來控制字典的規模，從而影響到稀疏程度。

壓縮感知關注的是如何利用訊號本身所具有的稀疏性，從部分觀測樣本中恢復原訊號。

壓縮感知分為兩個階段：

1、感知測量：對原始訊號進行處理以獲得稀疏樣本表示，這方面的內容涉及傅利葉變換、小波變換、字典學習、稀疏編碼等。

2、重構恢復：基於稀疏性從少量觀測中恢復原訊號，壓縮感知的精髓，通常說的壓縮感知就是指的這部分。

《西瓜書》筆記11 特徵選擇方法（一）

從給定的特徵集合中，選擇出相關特徵子集的過程，稱為特徵選擇。為什麼進行特徵選擇？特徵選擇不能丟失重要特徵，否則導致欠擬合。給定資料集，若學習任務不同，則相關特徵不同。因此無關特徵，指的是與當前學習任務無關。冗餘特徵其包含的資訊可從其他特徵推演而來。如立方體已有特徵長，寬，則底面積是冗餘特徵。一般的...

西瓜書第二章模型評估與選擇

錯誤率 a 分類錯誤的樣本個數 m 樣本個數精度 1 錯誤率誤差實際輸出與樣本的真實輸出之間的差異訓練誤差經驗誤差學習器在訓練集上的誤差泛化誤差學習器在新樣本上的誤差注我們希望得到泛化誤差小的學習器過擬合學習器的學習能力過於強大，把樣本中所包含的不太一般的特性學到了，導致的...

西瓜書第10章降維與度量學習

knn在訓練集中通過某種距離度量找到靠近測試樣本的k個訓練樣本，再根據投票法或是平均法輸出結果 knn是懶惰學習還有懶惰決策樹的著名代表，訓練時間為0，即不需要訓練。knn雖然簡單，但泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍。屬性越多，維度越高，很多情況下高維度帶來了維數災難，這將帶來資...

西瓜書 第11章 特徵選擇與稀疏學習

《西瓜書》筆記11 特徵選擇方法（一）

西瓜書 第二章模型評估與選擇

西瓜書 第10章 降維與度量學習

相關推薦

西瓜書第11章特徵選擇與稀疏學習

西瓜書第二章模型評估與選擇

西瓜書第10章降維與度量學習