機器學習4

2021-07-06 02:27:05 字數 1804 閱讀 2331

題外話,今天導師給我安排了乙個師兄帶我,是做推理方面的,自然語言處理領域太廣,也不知道推理具體做什麼的,哈哈,努力吧~

機器學習第5章走起。

如果h是無限大的怎麼辦呢?

h的大小我們用m表示。

small m

當m小的時候,p(bad) <= 2m...

,自然可以說p(bad)相對較小,

但是當m很小的時候,也說明h的個數少,我們可以選擇的h很少,那麼我們可能找不到乙個ein很小很接近0的h

large m

當m很大的時候 自然p(bad)太大,當然h的選擇很多呀。

當m無窮大的時候怎麼辦呢?

我們可不可以找到乙個可數的mh來替代,那麼我就可以替換m

那麼我們就要想我們在前面一章,我們把or開啟換成+的時候,做了一次放縮,其實我們可以想到,如果兩個h非常接近,我們放縮的結果是2倍的2exp(...),但是由於這兩個h很接近,所以顯然重疊量很大,那麼這個概率顯然小於我們這個放縮值。所以我們估計的上限值,是over的

那我們現在考慮,以pla劃分點來做例子,我們可以把無限的點,劃分成一類一類的,比如如果只有1個點,我們可以有兩種線,這個點為×或者為圈

兩個點4種,3個點8種(不重疊,不在一條直線上),那麼4個點呢?是不是16中,no,經過我們實踐,發現有兩種理論上的線,在4個點上是畫不出來的,所以實際上只有14種,這個數量,我們叫做effective有效的數量

顯然effective(n) 所以我們可以用effective(n)來替代m,如果effective(n) << pow(2,n),那麼我們就可以說,我們學到東西了。

顯然,對於上述例子,我們知道了如何分類,那麼對於其他問題,我們應該如何分類呢?

假設對於輸入,我們只有兩種輸出o 或者 ×,那麼假設有n個輸入,那麼我們的輸出肯定是,n個o 或者 × 的輸出,每個o 或者 ×的組合就是一種dichotomies

而對於分類,我們就可以看dichotomies的個數。

所以我們現在想要做的就是把dichotomies 的大小來替換hoffding's inequality裡面的m。

下面接著舉了幾個例子

positive ray : 成長函式 = n + 1

positive intervals 組合從n+1個中取兩個 + 1(就是整體線都是負的特殊情況)=1/2 n*n + 1/2 n + 1

convex sets pow(2,n),shatter 就是指對於n,我們能找出pow(2,n)個的dichotomies 

顯然對於前兩者,隨著n增大,由於成長函式<=多項式級別的,所以在n足夠大的時候,可以認為eout 和ein 誤差很大的機率很小,但是convex sets則不能說明

那麼2d的感知器演算法是好的還是不好的?

break point :就是 在成長函式小於pow(2,k)的點,而我們有興趣的點是第乙個break point 

positive ray :2

positive intervals:3

convex sets:no break point

2d 感知器:4

觀察,如果乙個例子沒有break point 的話, 那麼成長速度肯定是pow(2,n),如果第乙個break point是2,我們發現成長速度是k的一次方,是3,成長速度是k的二次方,那我們猜,如果第乙個break point在n,那麼成長速度是不是pow(k,n-1)?

那麼學到現在,我們可以說明,我們現在做的無非是兩件是,eout 和ein 是否接近,ein是否足夠小,在**前者的時候,我們從多少線到多少種,也就是成長函式,以及其性質,就是break point

那如果有break point,我們就可以說明成長速度是乙個多項式差不多的嗎?

機器學習 4

現在你進入了兩難的境地。乙個是來自使用者的小的資料集,它是一種分布,而另乙個是大得多的資料集,來自另乙個分布,的外觀和你真正想要處理的並不一樣。那麼你該怎麼做呢?這裡有一種選擇,你可以將兩種資料組合在一起,這樣你就有了21萬張,然後將這21萬張隨機分配到訓練 開發和測試集中。這麼做有一些好處,你的訓...

機器學習 4

十三 svm 線性可分svm原理 十四 svm 直觀理解拉格朗日乘子法 十五 svm對偶學習 十六 線性svm 間隔由硬到軟 十七 非線性svm和核函式 十八 svr 一種寬容的回歸模型 十九 直觀認識svm和svr 二十 hmm 定義和假設 二十一 hmm 三個基本問題 概率計算問題 問題 學習問...

機器學習No 4

1.也就是資料清洗的一步,最簡單的方法是刪除法 刪除列 刪除行。2.另一種是填補法 對於數值型變數 平均值填補 中位數填補等。其他的方法 1 填補上下值 2 插值法擬合出缺失的資料進行填補 for f in features 插值法填充 train data f train data f inter...