概率論06 連續分布

2021-09-08 09:40:09 字數 3801 閱讀 1148

在隨機變數中,我提到了連續隨機變數。相對於離散隨機變數,連續隨機變數可以在乙個連續區間內取值。比如乙個均勻分布,從0到1的區間內取值。乙個區間內包含了無窮多個實數,連續隨機變數的取值就有無窮多個可能。

為了表示連續隨機變數的概率分布,我們可以使用累積分布函式或者密度函式。密度函式是對累積分布函式的微分。連續隨機變數在某個區間內的概率可以使用累積分布函式相減獲得,即密度函式在相應區間的積分。

在隨機變數中,我們了解了一種連續分布,即均勻分布(uniform distribution)。這裡將羅列一些其他的經典連續分布。

指數分布(exponential distribution)的密度函式隨著取值的變大而指數減小。

指數分布的密度函式為:

$$f(x) = \left\ \lambda e^ & if & x \ge 0 \\ 0 & if & x < 0 \end \right.$$

累積分布函式為:

$$f(x) = 1 - e^, x \ge 0$$

我們繪製乙個指數分布[$\lambda = 0.2$],如下:

這樣一種分布在生活中很常見。比如,洪水等級的分布就類似於這樣乙個分布。小等級的洪水常發生,而大洪水發生的概率則很小。再比如,金礦的分布:大部分礦石的含金量少,而少部分礦石的含金量高。這提醒我們,一些特殊的條件導致了指數分布。感興趣的話可以學習「隨機過程」這一數學分支。

**如下:

from scipy.stats import

expon

import

numpy as np

import

matplotlib.pyplot as plt

rv = expon(scale = 5)

x = np.linspace(0, 20, 100)

plt.plot(x, rv.pdf(x))

plt.xlim([0, 15])

plt.title(

"exponential distribution")

plt.xlabel("rv

")plt.ylabel(

"f(x)")

plt.show()

上面的expon函式接收乙個引數scale。引數scale等於[$1/\lambda$]

指數分布是無記憶(memoryless)的。我們以原子衰變為例。任意時刻往後,都需要10年的時間,會有一半的原子衰變。已經發生的衰變對後面原子衰變的概率分布無影響。用數學的語言來說,就是

$$p(x > s) = p(x > s+t | x>t), for\, s,t \ge 0$$

等式的左邊是原子存活了s的概率。而等式的右邊是某一時刻t之後,原子再存活s時間的概率。可以利用指數分布的累積分布函式,很容易的證明上面的等式。指數分布經常用於模擬人的壽命或者電子產品的壽命,這意味著我們同樣假設這些分布是無記憶的。乙個人活10年的概率和乙個人到50歲後,再活10年的概率相等。這樣的假設有可能與現實情況有所出入,需要注意。

正態分佈(normal distribution)是最常用到的概率分布。正態分佈又被稱為高斯分布(gauss distribution),因為高斯在2023年使用該分布來**星體位置。吐槽一句,第乙個提出該分布的並不是數學王子高斯,而是法國人de moivre。作為統計先驅,這位數學家需要在咖啡館「**」,為賭徒計算概率為生。(看來法國咖啡館不止有文藝青年,也有技術屌絲啊。)

正態分佈的發現來自於對誤差的估計。早期的物理學家發現,在測量中,測量值的分布很有特點:靠近平均值時,概率大;遠離平均值時,概率小。比如我們使用尺子去測量同乙個物體的長度,重複許多次。如果沒有系統誤差,那麼測量到的長度值是乙個符合正態分佈的隨機變數。再比如,在電子訊號中白噪音,也很有可能符合正態分佈。de moivre最早用離散的二項分布來趨近這一分布,而高斯給出了這一分布的具體數學形式。

正態分佈自從一出生就帶著無比強大的「主角光環」,它的特殊地位在後面文章中的中心極限定理中凸顯出來。

正態分佈的密度函式如下:

$$f(x) = \frac\sigma}e^, -\infty < x < \infty$$

正態分佈有兩個引數,[$\mu$]和[$\sigma$]。我們可以將正態分佈表示成[$n(\mu, \sigma)$]。當[$\mu = 0$],[$\sigma = 1$],這樣的正態分佈被稱作標準正態分佈(standard normal distribution)。

我們繪製三個正態分佈的密度函式:

可以看到,正態分佈關於[$x = \mu$]對稱,密度函式在此處取得最大值,並隨著偏離中心而遞減。如果以測量長度為例,這說明的讀取值靠近[$\mu$]的可能性較大,而偏離[$\mu$]的可能性變小。

[$\sigma$]代表了概率分布的離散程度。[$\sigma$]越小,概率越趨近對稱中心[$x = \mu$]。

**如下:

#

by vamei

from scipy.stats import

norm

import

numpy as np

import

matplotlib.pyplot as plt

rv1 = norm(loc=0, scale = 1)

rv2 = norm(loc=2, scale = 1)

rv3 = norm(loc=0, scale = 2)

x = np.linspace(-5, 5, 200)

plt.plot(x, rv1.pdf(x), label="

n(0,1)")

plt.plot(x, rv2.pdf(x), label="

n(2,1)")

plt.plot(x, rv3.pdf(x), label="

n(0,2)")

plt.legend()

plt.xlim([-5, 5])

plt.title(

"normal distribution")

plt.xlabel("rv

")plt.ylabel(

"f(x)")

plt.show()

正態分佈在統計中有非常重要的地位。我們將在後面的中心極限理論的講解中,看到這一點。

gamma分布在統計推斷中具有重要地位。它的密度函式如下:

$$g(t) = \fract^e^, t \ge 0$$

其中的gamma函式可以表示為:

$$\gamma(x) = \int \limits_^ u^e^du, x>0$$

注意到,gamma分布有兩個控制引數[$\alpha$]和[$\lambda$]。

練習,利用scipy.stats.gamma繪製[$\alpha = 1, \lambda = 1$]和[$\alpha = 5, \lambda = 1$]的gamma分布密度函式。

我們研究了三種連續隨機變數的分布,並使用概率密度函式的方法來表示它們。密度函式在數學上比較容易處理,所以有很重要的理論意義。

密度函式在某個區間的積分,是隨機變數在該區間取值的概率。這意味著,在密度函式的繪圖中,概率是曲線下的面積。

概率論複習 基礎概率分布

概率論複習 基礎概率分布 發現對概率論的基本概念理解不是很深入,導致看後面的東西時常有些莫名其妙的疑惑,回頭來看看概率論與統計 cdf其定義為 f x x p x x 正如統計學完全教程裡說的,這個cdf函式是很有迷惑性的,有必要仔細理解它。我以前每次看這個表示式都是一閃而過,沒有好好理解,而它的真...

概率論複習 基礎概率分布

概率論複習 基礎概率分布 發現對概率論的基本概念理解不是很深入,導致看後面的東西時常有些莫名其妙的疑惑,回頭來看看概率論與統計 cdf其定義為fx x p x x 正如統計學完全教程裡說的,這個cdf函式是很有迷惑性的,有必要仔細理解它。我以前每次看這個表示式都是一閃而過,沒有好好理解,而它的真正的...

理解分布函式 概率論

概率論中乙個非常重要的函式就是分布函式,知道了隨機變數的分布函式,就知道了它的概率分布,也就可以計算概率了。一 理解好分布函式的定義 f x p x x 所以分布函式在任意一點x的值,表示隨機變數落在x點左邊 x x 的概率。它的定義域是 值域是 0,1 二 掌握好分布函式的性質 1 0 f x 1...