機器學習 稀疏性的優點

2021-09-24 10:48:28 字數 780 閱讀 4539

稀疏指的是引數或者資料中零的個數,零的個數越多,引數或者資料就越稀疏.這種稀疏性帶來許多優點.

引數稀疏有什麼好處

1)特徵選擇(feature selection): 大家對稀疏規則化趨之若鶩的乙個關鍵原因在於它能實現特徵的自動選擇。一般來說,xi的大部分元素(也就是特徵)都是和最終的輸出yi沒有關係或者不提供任何資訊的,在最小化目標函式的時候考慮xi這些額外的特徵,雖然可以獲得更小的訓練誤差,但在**新的樣本時,這些沒用的資訊反而會被考慮,從而干擾了對正確yi的**。稀疏規則化運算元的引入就是為了完成特徵自動選擇的光榮使命,它會學習地去掉這些沒有資訊的特徵,也就是把這些特徵對應的權重置為0。

2)可解釋性(interpretability): 另乙個青睞於稀疏的理由是,模型更容易解釋。例如患某種病的概率是y,然後我們收集到的資料x是1000維的,也就是我們需要尋找這1000種因素到底是怎麼影響患上這種病的概率的。假設我們這個是個回歸模型:y=w1*x1+w2*x2+…+w1000*x1000+b(當然了,為了讓y限定在[0,1]的範圍,一般還得加個logistic函式)。通過學習,如果最後學習到的w*就只有很少的非零元素,例如只有5個非零的wi,那麼我們就有理由相信,這些對應的特徵在患病分析上面提供的資訊是巨大的,決策性的。也就是說,患不患這種病只和這5個因素有關,那醫生就好分析多了。但如果1000個wi都非0,醫生面對這1000種因素.

稀疏性:

大多數問題線性可分.學習任務的難度有所減低.

易於儲存,但資料中零的個數多時,可以使用演算法減少儲存空間.

可解釋性提高.

參考:

稀疏性的優點

稀疏指的是引數或者資料中零的個數,零的個數越多,引數或者資料就越稀疏.這種稀疏性帶來許多優點.引數稀疏有什麼好處 1 特徵選擇 feature selection 大家對稀疏規則化趨之若鶩的乙個關鍵原因在於它能實現特徵的自動選擇。一般來說,xixi xi的大部分元素 也就是特徵 都是和最終的輸出yi...

稀疏矩陣 迷失密林 直觀了解機器學習的稀疏性

全文共2096字,預計學習時長6分鐘 看看這個美麗的森林,現在,假設你有機會在其中進行資料分析。你的任務是找出森林中每個區域的熊貓數量與樹木數量的比。成功分析後,會發現樹木的密度高於熊貓密度。轉換為矩陣形式,差不多是這個樣子 其中散落著一些可愛的大熊貓,但是矩陣的密度主要源於樹木。設樹木值 0 則熊...

機器學習 稀疏矩陣的處理

一 稀疏矩陣的定義 對於那些零元素數目遠遠多於非零元素數目,並且非零元素的分布沒有規律的矩陣稱為稀疏矩陣 sparse 人們無法給出稀疏矩陣的確切定義,一般都只是憑個人的直覺來理解這個概念,即矩陣中非零元素的個數遠遠小於矩陣元素的總數,並且非零元素沒有分布規律。二 稀疏矩陣的壓縮儲存 由於稀疏矩陣中...