機器學習 霍夫丁(Hoeffding)不等式證明

2022-01-24 00:34:03 字數 3139 閱讀 5831

對於任意非負隨機變數$x$,$\forall \epsilon>0$,有:

$\displaystyle p(x\ge\epsilon)\le\frac$

切比雪夫不等式是它的特例。

$ \begin e(x) &= \int_^xf(x)dx\\ &\ge \int_^xf(x)dx\\ &\ge \int_^\epsilon f(x)dx\\ &=\epsilon p(x\ge \epsilon)\\ \end$

把$\epsilon$除過去,得證。離散情況一樣。

對於隨機變數$x$,$p(x\in [a,b]) = 1,e(x)=0$,有:

$e(e^)\le e^$

因$e^$是關於$x$的凸函式,由凸函式性質:

$\displaystyle e^\le \frace^+\frace^$

於是對$x$取期望,有:

$ \begin \displaystyle e(e^) &\le \frace^+\frace^\\ & = \frace^-\frace^\\ & = \left(-\frac\right)e^\left(-\frac+e^{}\right)\\ \end$

因為$e(x)=0$,$x\in [a,b]$,而$a,b$都為0的情況沒有討論的意義,所以有$a<0,b>0$。令$\displaystyle\theta = -\frac>0$,則上式變為:

$ \begin \displaystyle e(e^) &\le \theta e^\left(\frac-1+e^\right)\\ &=(1-\theta + \theta e^)e^\\  \end$

因為$ \begin \displaystyle 1-\theta+\theta e^u = \theta(\frac-1+e^u) = \theta(-\frac+e^u)>0 \label{} \end $

所以不等式可以變為:

$\displaystyle e(e^)\le e^)}e^$

令$u = s(b-a)$:

$e(e^)\le e^$

定義$\varphi:r\to r,\varphi(u)= \ln(1-\theta+\theta e^u)-\theta u$。由$(1)$式可得這個函式是良定義的,也就是$\varphi(u)$的$\ln$並不限制$u$的取值。得:

$e(e^)\le e^$

由泰勒中值定理,$\exist\xi\in [0,u]$使

$\displaystyle\varphi(u)=\varphi(0)+u\varphi'(0)+\fracu^2\varphi''(\xi)$

其中:$ \begin \begin \varphi(0) = 0 \\ \varphi'(0)= \left.\left(\frac-\theta\right)\right|_=0  \\ \begin \varphi''(\xi) &= \frac(1-\theta+\theta e^)-\theta^2 e^})^2} \\ &=\frac}}(1-\frac}})\\ &=t(1-t)\le\frac \end \end \end $

因此有:

$\displaystyle\varphi(u)\le 0+0+\fracu^2\times\frac = \fracs^2(b-a)^2$

於是$e(e^)\le e^$

wiki的定義:

霍夫丁不等式適用於有界的隨機變數。設有兩兩獨立的一系列隨機變數$x_,\dots ,x_$。假設對所有的$x_$都是幾乎有界(看成有界就好了)的變數,即滿足:

$\displaystyle p(x_\in [a_,b_])=1$

那麼這n個隨機變數的經驗期望(均值):

$\displaystyle \overline = \frac$

滿足以下不等式:

$\displaystyle  p(\overline-e(\overline)\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$

$\displaystyle  p(|\overline-e(\overline)|\ge t) \le 2 \exp\left(- \frac^(b_i-a_i)^2}\right)$

對於$x_1,x_2,...,x_n$,$n$個相互獨立的隨機變數(wiki裡面說是兩兩獨立,我感覺兩兩獨立$x_i$乘積的期望應該不能分離成期望的乘積,這裡我不太明確),$p(x_i\in [a_i,b_i])=1,1\le i\le n$,令

$\displaystyle s_n=\sum\limits_^x_i$

取$s>0,t>0$,由馬爾科夫不等式得:

$\begin p(s_n-e(s_n)\ge t) &= p(e^\ge e^)\\ &\le e^e(e^) \\ &= e^\prod\limits_^e(e^) \end $

再由引理得:

$ \begin p(s_n-e(s_n)\ge t) &\le e^\prod\limits_^ e^}\\ &=\exp(-st+\fracs^2\sum\limits_^n(b_i-a_i)^2) \end $ 

到這一步,不等式中還多出了乙個$s$,因為$\forall s>0$,都有以上不等式成立,因此取右邊關於$s$的二次函式的最小值。令

$\displaystyle g(s)=-st+\fracs^2\sum\limits_^n(b_i-a_i)^2$

求$g'(s)=0$,得:

$\displaystyle  s = \frac^(b_i-a_i)^2}$

於是:$\displaystyle p(s_n-e(s_n)\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$

變換成$x_i$的均值$\overline$,也就是:

$\displaystyle  p(\overline-e(\overline)\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$

取反後依然成立:

$\displaystyle  p(e(\overline)-\overline\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$

合到一起:

$\displaystyle  p(|\overline-e(\overline)|\ge t) \le 2 \exp\left(- \frac^(b_i-a_i)^2}\right)$

得證。

機器學習 2 霍夫丁不等式

機器學習 2 霍夫丁不等式 這一章是為了說明機器學習的可行性的。為了解決乙個問題,即我們找到了乙個符合要求的函式f,這個函式在測試資料中準確率為90 那麼是否有該函式f在整體中的正確率也有90 或者說和90 相差不大。我上面說的話很重要,下面就是為了解決上面的問題,一般文章都是那從罐子裡取出小球做模...

霍夫丁 Hoeffding 不等式

1.霍夫丁引理 設 x 是均值為 0 的隨機變數,即 e x 0 且 x in a,b 則對於任意的 lambda in r 可以得到乙個關於區間長度 b a 的不等式 e e leq exp left b a right 由於隨機變數的期望為 0,所以必定有 a 0,b 0 引理證明 e 在區間 ...

opencv學習之霍夫變換

原理部分參見 標準霍夫變換示例 opencv 1.cpp 定義控制台應用程式的入口點。include stdafx.h include include includeusing namespace cv using namespace std int main imshow 邊緣檢測後的圖 midi...