(六)正太分布

2021-09-07 15:01:30 字數 2229 閱讀 5892

在正態分佈中,通過檢視某個值在 x 軸上的位置,即標準偏差,我們能夠確定小於或大於任何值的百分比,接下來將學習如何計算這些百分比。請注意,我們使用的是理論曲線來繪製資料模型,該曲線下的面積是 1,因為它是用分布資料的相對頻率(即比例)來繪製資料模型,該曲線叫做概率密度函式,通常縮寫為 pdf。

為何叫做概率密度函式呢?假設我們研究下優達學城學員的隨機樣本,下圖是表示優達學城學員年齡的直方圖,樣本量是 7,901 這是實際資料。我們用該概率密度函式來繪製模型,請注意,當我們繪製模型時

我們用該概率密度函式來繪製模型,請注意,當我們繪製模型時絕對頻率變成相對頻率,下圖綠色區域輸入的是概率,根據我們的樣本,大約 70% 的優達學城學員年齡等於或小於 30 歲,現在假設隨機選擇任何一名優達學城學員 為其分配乙個唯一編號,然後我們隨機選擇乙個編號,那麼我們選擇的學員的年齡等於或小於 30 歲的概率是多少?

根據上圖我們知道 70% 的優達學城學員年齡等於或小於 30 歲,這就表示隨機選擇一名等於或小於 30 歲的學員的概率是 70%,即 0.7,這就是為何這個叫做概率密度函式,該曲線下的面積表示概率。

正態分佈也可以這麼操作,它是用特殊的概率密度函式表示的,對於該理論曲線,我們可以用方程式來表示,根據該方程式我們可以通過微積分算出曲線下的面積,但是我們不需要使用微積分,因為已經有人這麼做了,他們建立了特殊**,這樣我們始終都能知道任何兩個值之間的曲線下的面積。

正態概率密度函式和曲線下的面積,曲線末端實際上不會接觸到 x 軸,只是越來越接近 x 軸,x 是水平漸近線,該理論模型的曲線末端不會接觸到 x 軸是因為我們永遠都不能 100% 確定某件事,換句話說,可以在最遠處有個值 距離平均值非常的遠,例如 5 個標準偏差那麼遠,但是達到該值或更低值的概率非常的小,等於該曲線下的面積,放大的話,會看到該末端越來越接近 x 軸,但是永遠不會接觸到,該末端和 x 軸之間的面積一直快接近負無窮,也就是達到該值或更低值的概率。

注意,正態分佈多種多樣,可以是寬扁型或瘦高型,但是密度曲線下的總面積始終為 1,對於正態分佈 在平均值周圍 1 個標準偏差範圍內的面積約為 68%,平均值周圍 2 個標準偏差範圍內的面積約為 95%。

facebook 好友數分布示例

假設該分布是正態分佈,平均每個人有 190 個 facebook 好友,標準偏差是 36 個 facebook 好友,那麼,多少比例的人的 facebook 好友數少於 154?

比例是 0.16
view code

之前說過,如果我們擁有概率密度函式方程式,我們可以使用微積分計算出任何兩個值之間或負無窮與任何值之間曲線下的面積,數學家將這些值放入了乙個**中,下圖是該**的前部分內容 右上角有個小圖表,表示如果給出 z 值,該**中的數值會告訴你在標準正態曲線中,小於該 z 值的比例是多少,該**是針對標準正態分佈的,也就是平均值為 0,標準偏差是 1。下面是z**的連線

使用 z **得出少於 240 個 facebook 好友的大概比例

91.77%我們首先需要將 

240 轉換為 z 值,也就是我們要算出 240 距離平均值190 有多少個標準偏差,應該等於一點幾,首先算出 190 和 240 之間的距離,然後除以標準偏差,算出該距離等於多少個標準偏差,結果大概是 1.39,我們需要四捨五入到百分位,因為 z **最多隻精確到百分位,所以我們的 z 值是 1.39,拿出 z **,首先找到 1.3,然後找到 0.09 是最後一列,得出小於 1.39 個標準偏差的面積是 0.9177,意味著大約 91.77% 的人 facebook 好友數不到 240 個,注意,整個過程都是假設這是正態分佈 平均值為 190,標準偏差是 36

view code

R之判斷多元正太分布檢驗

1.r中進行單變數檢驗用chisq.test 函式,變數必須是數值型 2.在進行多變數進行多元驗證正太分布時用 library mvnormtest lib.loc d rinstall r 3.2.1 library 切記資料集一定要轉換為矩陣,且資料集裡面的待驗證變數一定要是數值型 librar...

c 標準正太分布函式 t分布與檢驗小結

t 分布 t分布 t distribution 用於根據小樣本來估計呈正態分佈且方差未知的總體的平均值 如果總體方差已知,則應該使用正態分佈 自由度越大,t分布越接近標準正太分布 隨自由度的增大,t分布逐漸逼近標準正太分布 t分布曲線的特點 t分布曲線是單峰分布,它以0為中心,左右對稱 t分布的形狀...

證明隨機數符合正太分布的方法

因為工作需要,自己用c語言實現了matlab中的normrnd函式 隨機正太分布函式,就是生成的隨機數符合正太分布 其實相關的函式實現網上有很多,我使用了box muller方法。需要的可以網上找,這裡不做描述 本文主要是驗證自己實現的c函式有沒有真正的實現這個功能。方法就是大量資料描圖 1.用c函...