概率論與數理統計小記

2022-01-31 11:31:22 字數 3923 閱讀 3178

很多概率結論或概率問題結果是符合直覺的。

"概率論只不過是把常識用數學公式表達了出來"——拉普拉斯 

隨機事件間的關係:

互斥(互不相容)、對立:兩事件樣本點集合間的關係

相互獨立、線性相關:事件間的依賴關係

概率定義、條件概率、全概率、貝葉斯公式

隨機試驗(e):對不確定的現象(隨機現象)中客觀事物進行觀察的過程。如拋擲一次色子。

樣本空間(ω):ω=,即隨機試驗的一切可能結果組成的集合。每個元素為樣本點。如拋擲一次色子時出現的點數的樣本空間ω=。

隨機事件(a、b...):隨機試驗的某種觀測結果,它是樣本空間中的部分樣本點組成的集合,是樣本空間的子集。如對於隨機試驗拋一次色子,a==是個隨機事件。

典型的隨機事件——等可能模型:

古典概型(樣本空間為離散有限集、各基本隨機事件發生的可能性一樣)

幾何概型(樣本空間是區域如一維二維三維等、各樣本點等可能出現)

隨機事件間的:

關係:包含、相等、互斥(或稱互不相容)。如⊆、=

運算:並、交、差、逆(或稱補、對立)等,如∪、∩、-、~。注:a的逆事件表示為~a=ac=ω-a,也可表示為a上面加上劃線;p(ab)指的是p(a∩b)

運算定律(交換律、結合律、分配律、對偶律)

隨機變數:ω -> r,即樣本空間到實數的對映。隨機事件通常用隨機變數來表示,如拋擲一次色子時出現的點數x為乙個隨機變數。

概率:概率的公理化定義(柯爾莫哥洛夫定律,1933,蘇聯)

:設隨機試驗e的樣本空間為ω,若對任一隨機事件a都有唯一實數p(a)與之對應,且p(a)滿足非負(即0≤p(a)≤1)、規範(即p(ω)=1)、可列可加性(即對兩兩互不相容事件ai有p(∪ai)=σp(ai)),則p(a)為隨機事件a的概率。

條件概率

定義:p(a|b)=p(ab)/p(b),其中p(b)>0,條件概率p(a|b)也符合上述公理化定義的三個性質。

推論(概率乘法公式):p(ab)=p(a)p(b|a)=p(b)p(a|b);p(abc)=p(a)p(bc|a)=p(a)p(b|a)p(c|ab),依次類推

事件互相獨立(事件間沒有關係)的定義:p(a|b)=p(a)或p(b|a)=p(b),即p(ab)=p(a)p(b)。注:多個事件兩兩相互獨立並不意味著這些事件互相獨立(見鏈結中的示例)

注:p(a)+p(~a)=1、p(a∩b)+p(a∩~b)=p(a),但p(a|b)+p(a|~b)與p(a)不恆等於p(a)也不恆等於1,沒有固定結果

先驗概率、後驗概率

事件a的先驗概率p(a):即事件a發生的概率。為不考慮結果或其他原因下據以往經驗和分析對事件a發生可能性的猜測的數學表示,「先」體現在在事件a發生之前就斷言了事件a發生的概率。

後驗概率p(a|b):事件b已經發生了,發生的原因有多種,發生時由原因a引起的概率。

全概率:p(b)=σp(aib)=σp(ai)p(b|ai),i=1,2,...,n,其中ai互不相容且σai=ω(稱為ω的乙個完備事件組)。

理解:事件結果b有兩兩無交集的子原因,結果b發生的概率由這些子原因累計得到,這是從原因推結果的計算問題,是計算先驗概率的問題。

貝葉斯公式:p(ak|b)=p(akb)/p(b)=p(ak)p(b|ak)/σp(ai)p(b|ai),k, i=1,2,...,n,其中ai互不相容且σai=ω(稱為ω的乙個完備事件組)。

理解:事件結果b有兩兩無交集的子原因,根據結果b可以反推任一導致該結果的子原因,其條件概率取決於子原因和結果的聯合概率,這是從結果推原因的計算問題,是計算後驗概率的問題。

更直覺的理解:已知結果b發生的情況下求由原因ak導致的概率=原因ak導致結果b的概率/各原因導致結果b的概率的和,或已知檢測呈陽性,則患病的概率=真陽性概率/(真陽性概率+假陽性概率)。後者的乙個很好的例子:

應用:貝葉斯分類器。原理:後驗概率最大化(即期望風險最小化),故也稱為最大後驗概率估計;生成式模型。示例請參閱前面的鏈結。

貝葉斯最優分類器(據樣本學習分類器從而用於判斷樣本點所屬分類:結果推原因。問題:先驗概率維度災難)

樸素貝葉斯法(加了個樣本點各維獨立同分布的前提假設以便於計算先驗概率,如垃圾郵件分類應用中假設各單詞出現相互獨立)

加入平滑因子的樸素貝葉斯法(先驗概率可能為0從而導致後驗概率為0的問題)

現代統計學兩大分支:經典統計學派(知原因推結果)、貝葉斯學派(知結果推原因)。

從數學公式上來講,貝葉斯公式是全概率公式的逆運算,全概率公式和貝葉斯公式實際上代表了同乙個事物的正反兩面,有因就有果,有果就有因。

再談線性回歸函式分析,從概率論與數理統計角度看線性回歸引數估計

ex、dx、cov(x, y)、相關係數、分布:伯努利分布、泊松分布(亦稱兩點分布或0-1分布)、均勻分布、指數分布、正態分佈、標準正態分佈

隨機變數 互相獨立 是 不線性相關 的充分不必要條件

大數定律、中心極限定理

定律與定理:

伯努利大數定律(1713)(n足夠大時,伯努利實驗中事件發生頻率依概率1收斂於事件期望。收斂意為小幅波動)

條件:特指伯努利實驗(伯努利實驗中各隨機變數獨立同分布,且均值、方差存在)

說明了頻率具有穩定性

*辛欽大數定律(n足夠大時,對於獨立同分布的隨機變數xi,若xi均值存在(方差可不存在),則樣本均值趨向於總體均值/期望) 

條件:各隨機變數獨立同分布、均值存在(方差可不存在)

為用樣本均值來估計總體均值提供了理論依據

伯努利大數定律是此定律的乙個特例

切比雪夫大數定律(當n足夠大時,對於互不線性相關的隨機變數xi,若xi均值和方差存在且方差一致有界,這些隨機變數的均值 趨向於 各隨機變數的期望的均值)

條件:隨機變數兩兩不線性相關(不要求獨立同分布,故條件更弱)、exi存在、dxi存在且dxi≤c

辛欽大數定律是此定律的乙個特例

棣莫弗-拉普拉斯中心極限定理,也稱二項分布的正態近似(1733)(n足夠大時,伯努利實驗中事件發生次數近似於正態分佈)

條件:特指伯努利實驗(伯努利實驗中各隨機變數是獨立同分布的,且均值、方差存在)

此定理的作用在於很多時候沒法直接計算二項分布的分布/概率,若n夠大則此時可用正態分佈近似計算。實際上,若p≤0.1,則二項分布也近似於泊松分布,即也可用泊松分布近似計算。

*列維-林德伯格中心極限定理(1920)(n足夠大時,對於獨立同分布的隨機變數xi,若xi均值和方差存在,則σxi近似於正態分佈)

條件:各隨機變數獨立同分布,且均值、方差存在

當n足夠大時,對於任意獨立同分布可用正態分佈近似計算概率。

微觀少量樣本隨機、巨集觀大數統計意義上的正態有序

棣莫弗-拉普拉斯中心極限定理是本定理的乙個特例

總結:大數定律是說樣本夠多時,樣本均值會收斂於總體均值(但樣本均值的分布是怎樣的不知道);中心極限定理是說樣本夠多時,樣本均值趨近於正態分佈(剛好彌補了大數定律不知分布的缺陷)

統計學筆記

期望、方差、概率密度函式、邊緣概率密度函式、聯合概率密度函式、分布函式、聯合分布函式

統計學筆記 不等式

幾個概率不等式:

馬爾可夫不等式

切比雪夫不等式:用於衡量隨機變數與其期望的偏離程度的上限,上限與方差成正比。也說明了方差是隨機變數取值與其中心位置的偏離程度的一種衡量指標。

mill不等式

幾個期望不等式:

概率論與數理統計

概率論與數理統計是研究和揭示隨機現象統計規律性的一門數學學科。1,有一類現象,在一定條件下必然發生,這類現象稱為確定性現象。例如,石子必然下落,同性電荷必然相互排斥。2,在試驗或觀察之前不能預知確切的結果,但是在大量重複試驗或觀察下,結果卻呈現出某種規律性。這種在大量重複試驗或觀察中所呈現出的固有規...

概率論與數理統計 2

看乙個例子 盒子中有5個球,其中3個紅球,隨機取2個,注意問的問題?取到1個紅球的概率至少取到乙個紅球的概率無法取到紅球的概率取到2個紅球的概率取到紅球的個數 1 4的概率都是乙個數值,而取到紅球的個數則可能是0,1,2,但這些結果是隨機的,那麼稱取到紅球的個數為乙個隨機變數,並且求出各個取值的概率...

概率論與數理統計 3

扔硬幣不是正就是反 扔骰子的點數是1,2,3,4,5,6 打靶要麼中標要麼不中 這些結果數值都是明確可以取值的.稱為離散型隨機變數 圓的角度 0 360,可以有小數點 某人上班8點到9點之間到,這個結果集無法列舉 乙個燈泡的使用壽命 這些數值都無法列舉,但可在其範圍內取任一實數就稱為連續型隨機變數 ...