對付非線性可分的資料集的一種通用辦法

2021-07-24 21:59:03 字數 483 閱讀 3542

假設這個資料集能夠被乙個非線性的面分開,這個面的表達形式為f(x,y,z)。那麼,根據泰勒展開,可以得到f(x,y,z)的多項式表達。那麼,就可以把其多項式表達作為乙個新的面,將多項式的各個次數的分量組成乙個新的向量,就成了線性可分的。這樣相當於將資料集做了個變換,將非線性的資料集變換成線性的資料集。

由此可以推出,在一定意義上來說,任何非線性的資料集通過某種變換後,都是線性可分的。

但是,如果經過泰勒展開以後,資料的維度會上公升的很快,所以儲存和計算速度都會增加很快。同時,因為引數增長的非常快,vc維度也會增加的很快,非常容易發生overfitting 。

因此,乙個比較科學的做法是,從線性逼近開始嘗試,然後一步步的測試複雜的逼近。

另外乙個問題是過擬合的問題。過擬合跟兩個東西有關:雜訊和資料集大小。如果資料集小、而所選的模型的vc維度太高的話,就會發生過擬合現象。

下圖說明了另外乙個問題。即使我們的分類器是很高次數的多項式,但是在資料量有限的情況下也會出現過擬合現象。

一種高精度低複雜度的非線性函式定點計算方法

摘要 在嵌入式系統中,由於沒有浮點運算單元,當涉及浮點運算的時候需要做定點化處理。查表法是一種常用的方法。表的大小直接關係到計算的精度和複雜度。如何在計算精度和複雜度之間取得平衡,是乙個重要的問題。本文根據泰勒公式重新設計了一種新的計算方法。這種方法具有很高的精度,而計算複雜度低,表的大小也很小。在...

整數集上的一種奇特拓撲

在 proofs from the book 裡素數無限的六種證明的第五種講到了一種用點集拓撲學知識證明的方法,其中引入了整數集上的一種奇特拓撲。對 a b b 0 令 n a,b 我們稱集合 o 是開集,若o 或者 a o,b 0,st.n a,b o,容易驗證這樣定義的開集族全體構成了 上的拓撲...

一種靈活的商品屬性集實現思路

在一些商務系統中會對商品的屬性進行管理,方法有很多,可參考文章商品sku分析和設計。在這裡,我分享一種更靈活的實現思路。商品屬性設計為公用,屬性由屬性集管理,屬性集也是公用的,如下 1.先定義屬性 attribute 這個表只是定義屬性的名稱。2.定義屬性具體的值 attribute value 其...