細談資料分析中的正態分佈和中心極限定理

2021-09-24 23:02:16 字數 1752 閱讀 5633

正態分佈準確地說什麼是標準離差?它用最標準方式表達的期望值(標準差)的離差。

第一步是收集一系列教據和決定你的期望值是多少。

例如找們討論的拋兩個般子的情況.你可能期望得到乙個綜合值等於7點的結果。然而你可能得到的不是7。我們拋般子50次並記錄結果,最後得到期望分布。

集中性:曲線的最高峰位於正**,且位置為均數所在的位置。

對稱性:正態分佈曲線以均數所在的位置為中心左右對稱且曲線兩段無線趨近於橫軸。

均勻變動性:正態分佈曲線以均數所在的位置為中心均勻向左右兩側下降。

面積恒等:曲線與橫軸間的面積總等於1。

從公式上可以看出,正態分佈有平均數和標準差決定的

這裡提乙個容易混淆的兩個概念,平均值和期望,很多時候我們都會認為這是同乙個東西,實際上平均值屬於數理統計,期望則是屬於概率論,但是二者都是對總體趨勢的一種度量。

數學期望常稱為「均值」,即「隨機變數取值的平均值」之意,當然這個平均,是指以概率為權的加權平均。數學期望是由隨機變數的分布完全決定。

大數定理:當樣本量n趨近無窮大的時候,樣本的平均值無限接近數學期望

首先我們要知道的是軸與正態曲線之間的面積恆等於1,然後我們對x軸上的值做標準化處理

(x-均值)/標準差=x的標準化(標準正態分佈的x值)。

然後將標準化的值拿到標準正態分佈表裡去查對應的值,最後1-表對應值得到x所佔整個資料的比例。

標準正態分佈是正態分佈的一種,平均數為0,標準差為1。

中心極限定理的概念:中心極限定理指的是給定乙個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分佈。

舉個簡單的例子:現在我們要統計全國的人的成年男性身高,看看我國平均成年男性身高是多少。但是我們把全國所有人的成年男性身高都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的成年男性身高平均值、第二組的成年男性身高平均值,一直到最後一組的成年男性身高平均值。

根據中心極限定理說:這些平均值是呈現正態分佈的。並且,隨著組數的增加,效果會越好。最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均成年男性身高。

中心極限定理有幾點需要注意:總體本身的分布不要求正態分佈,但是最後算出來的平均值卻會接近正態。

還有就是樣本每組要足夠大,但也不需要太大,一般認為,每組大於等於30個,即可讓中心極限定理發揮作用。

離散型隨機變數與連續型隨機變數都是由隨機變數取值範圍(取值)確定。

變數取值只能取離散型的自然數,就是離散型隨機變數。例如,一次擲20個骰子,k個骰子面朝6,k是隨機變數。k的取值只能是自然數0,1,2,…,20,而不能取小數3.5、無理數,因而k是離散型隨機變數。

如果變數可以在某個區間內取任一實數,即變數的取值可以是連續的,這隨機變數就稱為連續型隨機變數。例如,地鐵每5分鐘一班,某人在站台等車時間x是個隨機變數,x的取值範圍是[0,5),它是乙個區間,從理論上說在這個區間內可取任一實數3.5、無理數等,因而稱這隨機變數是連續型隨機變數

正態分佈及金融應用 python 資料分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats norm np.random.normal size 5 print norm print stats.nor...

中心極限定理 資料分析中的統計規律之中心極限定理

中心極限定理 central limit theorem 是概率論中討論隨機變數序列部分和分布漸近於正態分佈的一類定理。這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變數累積分布函式逐點收斂到正態分佈的積累分布函式的條件。光從百科的字面上我們可能很難理解這個定理到底是個什麼東東?其實,只要...

資料分析中的指標和維度

指標與維度是資料分析中最常用到的術語,它們是非常基礎的,但是又很重要,經常有朋友沒有搞清楚它們之間的關係,只有掌握理解了,我們的資料分析工作開展就就容易多了。現在就來說說指標與維度的那些事。1 指標 指標,用於衡量事物發展程度的單位或方法,它還有個it上常用的名字,也就是度量。例如 人口數 gdp ...