機器學習稀疏性的優點

稀疏指的是引數或者資料中零的個數,零的個數越多,引數或者資料就越稀疏.這種稀疏性帶來許多優點.

引數稀疏有什麼好處

1）特徵選擇(feature selection)：大家對稀疏規則化趨之若鶩的乙個關鍵原因在於它能實現特徵的自動選擇。一般來說，xi的大部分元素（也就是特徵）都是和最終的輸出yi沒有關係或者不提供任何資訊的，在最小化目標函式的時候考慮xi這些額外的特徵，雖然可以獲得更小的訓練誤差，但在**新的樣本時，這些沒用的資訊反而會被考慮，從而干擾了對正確yi的**。稀疏規則化運算元的引入就是為了完成特徵自動選擇的光榮使命，它會學習地去掉這些沒有資訊的特徵，也就是把這些特徵對應的權重置為0。

2）可解釋性(interpretability)：另乙個青睞於稀疏的理由是，模型更容易解釋。例如患某種病的概率是y，然後我們收集到的資料x是1000維的，也就是我們需要尋找這1000種因素到底是怎麼影響患上這種病的概率的。假設我們這個是個回歸模型：y=w1*x1+w2*x2+…+w1000*x1000+b（當然了，為了讓y限定在[0,1]的範圍，一般還得加個logistic函式）。通過學習，如果最後學習到的w*就只有很少的非零元素，例如只有5個非零的wi，那麼我們就有理由相信，這些對應的特徵在患病分析上面提供的資訊是巨大的，決策性的。也就是說，患不患這種病只和這5個因素有關，那醫生就好分析多了。但如果1000個wi都非0，醫生面對這1000種因素.

稀疏性:

大多數問題線性可分.學習任務的難度有所減低.

易於儲存,但資料中零的個數多時,可以使用演算法減少儲存空間.

可解釋性提高.

參考:

機器學習稀疏性的優點

稀疏性的優點

稀疏矩陣迷失密林直觀了解機器學習的稀疏性

機器學習稀疏矩陣的處理

機器學習 稀疏性的優點

稀疏性的優點

稀疏矩陣 迷失密林 直觀了解機器學習的稀疏性

機器學習 稀疏矩陣的處理

相關推薦

機器學習稀疏性的優點

稀疏矩陣迷失密林直觀了解機器學習的稀疏性

機器學習稀疏矩陣的處理