Lp範數與資料擬合

2021-08-20 02:20:14 字數 1324 閱讀 9835

lp範數

定義如下,p取值範圍[0,+∞) 

其中l0範數表示非零資料的個數

l+∞範數表示資料中的最大值

l-∞ 範數表示資料中的最小值

與資料擬合的關係

資料擬合中,通常說通過lp範數最小化求解,是指yi的p次方和作為損失函式(無需再開p次方)

損失函式最小,以求解表示式中的引數。通常取 p>=1(主要是了大資料計算方便)

實際在小資料、少量引數情況下,通過優化演算法,可以實現0以上公式只有在p=0,以及p=+∞時,才需要嚴格按照lp範數的定義賦予損失函式

要理解lp範數對資料擬合的意義,我們先考慮如下情況

p= 0  時,a 的結果為數列x的眾數(由於0^0問題,此時損失函式需要按l0範數的定義寫)

p= 1  時,a 的結果為數列x的中位數

p= 2  時,a 的結果為數列x的平均數

p=+∞時,a 的結果為數列x的中程數(即最大數與最小數的平均值,此時損失函式需要按l+∞範數的定義寫)

以上結論可以完全適用在lp範數最小化的資料擬合上(偏差=真實資料-擬合函式**值)

在對異常值敏感度上,某資料在偏差lp範數總和(損失函式)中佔比越大,則對結果影響越大

如p=2,異常值對應的偏差 y - f(a ,b...) (通常較大) 經過平方之後,在損失函式值中佔比更大

對結果的影響也更大,因此,相比l1範數求解方法,l2範數對異常值更敏感

總結,lp範數最小化進行資料擬合時,有如下意義:

l0範數為眾數回歸,對異常值    無感,有0偏差最多

l1範數為中位數回歸,對異常值不敏感,有正偏差和負偏差數量相等

l2範數為平均數回歸,對異常值較敏感,有平均偏差為0

l+∞範數為中程數回歸,對異常值高敏感,有最大正偏差和最小負偏差絕對值相等

對於p等於其它數,其結果和對異常值的敏感性將介於以上兩者其間

如l0.5範數最小化資料擬合,應是融合中位數和眾數的一種回歸,對異常值敏感性也介於不敏感和無感之間

0參考資料

向量與矩陣範數

在剛入門機器學習中的低秩,稀疏模型時,被各種範數攪得一團糟,嚴重延緩了學習進度,經過一段時間的學習,現在將其完整的總結一下,希望遇到同樣麻煩的同學能有所幫助。首先定義乙個向量為 a 5,6,8,10 向量的1範數即 向量的各個元素的絕對值之和,上述向量a的1範數結果就是 29,matlab 實現為 ...

欠擬合與過擬合

在用機器學習搭建模型時,經常會碰到這樣一種情況,你的模型演算法在樣本資料中匹配的非常完美。但用新資料測試,發現模型結果和實際差距非常大。那麼恭喜你!你掉進了機器學習中常見的乙個大坑 過擬合。什麼是過擬合呢?機器學習本質上是通過建立資料模型,使其和現有資料相吻合,從而找到資料中內在的規律。如下面三張圖...

欠擬合與過擬合

一 1.欠擬合 訓練集上表現很差 這種情況在測試集上也不會好 高偏差 bias 解決辦法 選擇更複雜的網路 有正則項就減小正則項引數等。2.過擬合 訓練集上表現很好,但測試集上表現很差,高方差 variance 解決辦法 採用更多資料 如果有正則化就增加正則化引數,沒有就加上正則化 dropout等...