curse of dimension維數災難

2021-08-07 04:57:12 字數 1032 閱讀 6290

維數災難:即高維情況下的過擬合

為了獲得更精準的分類,可以新增更多特徵。也許特徵達到一定維度,我們會得到乙個堪稱完美的分類器?其實不然,因為當特徵達到一定維度後,再去增加維度會導致分類器的效能下降,這便是經常提到的「

curse of dimension

」在得到乙個效能優良的分類器前,增加特徵便會有更好的分類效果,但事實卻不是這樣。其實在增加特徵時,樣本的密度會呈指數形式下降。假設

1維中長度為

5個單位

,2維中會有

25個單位

3維則會達到

125個單位,樣本數目是固定的,本例中為

10,可見維度的增高,樣本密度會呈指數級下降,通過新增特徵導致的稀疏,使我們易於找到乙個超平面來把樣本分離,因為特徵數目趨於無窮大時,樣本被分類錯誤的概率會變得無窮小,然而當把樣本由高維投影到低維時,便會有乙個嚴重的問題。

使用太多的特徵,分類器也會擬合訓練資料中的雜訊誤差,並且不能很好的泛化到新來的測試資料,即分類器不能把對樣本資料的分類能力很好的泛化到訓練資料。事實上,

通過新增增加特徵把資料對映到高維空間來獲得乙個優良的分類器,僅僅相當於在低維空間中使用乙個複雜的非線性分類器(

kernel method

)。在高維空間中,我們的分類器只擬合了稀疏的訓練資料,資料可能帶有誤差,這樣便會使分類器不能應用到乙個更廣闊的資料集,即缺乏泛化性。這個概念便是由維數引起的

over-fitting

這種簡單的分類效果會更好的泛化到訓練集以外的資料,因為它並沒有擬合只出現在訓練資料中的例外狀況。換句話說,使用較少的特徵,維數災難是可以避免的,不會過度擬合訓練資料。

用乙個值在(

0-1)之間的特徵來分類訓練資料,如果我們想要覆蓋特徵空間的

20%,我們便需要樣本總數的

20%,

如果新增乙個特徵,在

2維空間中,要覆蓋特徵空間的

20%,我們便需要在每個維度上取樣本的總數的

45%,

(0.45^2=2

),同理,

3維空間中需要在每個維度上取

58%。

cs229 Lecture17 離散與維數災難

主要內容 離散化 模型mdp的同化型 model similator 擬合值迭代演算法 q函式 近似政策迭代 筆記 之前我們的狀態都是離散的,如果狀態是連續的,下面將用乙個例子來予以說明,這個例子就是inverted pendulum問題 也就是乙個鐵軌小車上有乙個長桿,要用計算機來讓它保持平衡 其...

陣列的維數

作為引數或者在二維陣列的宣告時,往往可以省略第一維,但是不可以省略第二維,或者是更高的維數。這是由於編譯器的原理所限制的。a i j a 0 0 i sizeof int n sizeof int 此時 n為二維的維數 由此可以看出在定義二維陣列或更高維陣列時,對其進行初始化可以省略第一維引數,編譯...

二維數 三維陣列

二維陣列 2017 11 10 對比 1 概念 一維陣列 存貯一組相同型別資料 二維陣列 存貯著多個一維陣列 類推 三維陣列 存貯著多個二維陣列 2 宣告 一維陣列 陣列型別 陣列名 初始值 int arr01 int arr00 new int 5 二維陣列 陣列型別 陣列名 初值 陣列型別為一維...