資料分析之分布函式

2021-09-19 19:42:12 字數 1592 閱讀 4471

一. 概念解釋

pdf:概率密度函式(probability density function), 在數學中,連續型隨機變數的概率密度函式(在不至於混淆時可以簡稱為密度函式)是乙個描述這個隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。

pmf : 概率質量函式(probability mass function), 在概率論中,概率質量函式是離散隨機變數在各特定取值上的概率。

cdf : 累積分布函式 (cumulative distribution function),又叫分布函式,是概率密度函式的積分,能完整描述乙個實隨機變數x的概率分布。

二. 數學表示

pdf:如果x是連續型隨機變數,定義概率密度函式為fx(x),用pdf在某一區間上的積分來刻畫隨機變數落在這個區間中的概率,即
pr(a≤x≤b)=∫bafx(x)dx

pmf:如果x

離散型隨機變數,定義概率質量函式為fx(x)

,pmf其實就是高中所學的離散型隨機變數的分布律,即

fx(x)=pr(x=x)

比如對於擲一枚均勻硬幣,如果正面令x=1,如果反面令x=0,那麼它的pmf就是

fx(x)=0 if x?

cdf:不管是什麼型別(連續/離散/其他)的隨機變數,都可以定義它的累積分布函式,有時簡稱為分布函式。

對於連續型隨機變數,顯然有fx(x)=pr(x≤x)=∫x?∞fx(t)dt

那麼cdf就是pdf的積分,pdf就是cdf的導數。

對於離散型隨機變數,其cdf是分段函式,比如舉例中的擲硬幣隨機變數,它的cdf為

fx(x)=pr(x≤x)=?????0 if x<012 if 0≤x<11 if x≥1

三.概念分析

根據上述,我們能得到一下結論:

1)pdf是連續變數特有的,pmf是離散隨機變數特有的;

2)pdf的取值本身不是概率,它是一種趨勢(密度)只有對連續隨機變數的取值進行積分後才是概率,也就是說對於連續值確定它在某一點的概率是沒有意義的;

3)pmf的取值本身代表該值的概率。

四.分布函式的意義

我們從兩點來分析分布函式的意義:

1.為什麼需要分布函式?

對於離散型隨機變數,可以直接用分布律來描述其統計規律性,而對於非離散型的隨機變數,如連續型隨機變數,因為我們無法一一枚舉出隨機變數的所有可能取值,所以它的概率分布不能像隨機變數那樣進行描述,於是引入pdf,用積分來求隨機變數落入某個區間的概率。分布律不能描述連續型隨機變數,密度函式不能描述離散隨機變數,因此需要找到乙個統一方式描述隨機變數統計規律,這就有了分布函式。另外,在現實生活中,有時候人們感興趣的是隨機變數落入某個範圍內的概率是多少,如擲骰子的數小於3點的獲勝,那麼考慮隨機變數落入某個區間的概率就變得有現實意義了,因此引入分布函式很有必要。
2. 分布函式的意義

分布函式f(x)
在點x處的函式值表示x落在區間(?∞,x]內的概率,所以分布函式就是定義域為r

的乙個普通函式,因此我們可以把概率問題轉化為函式問題,從而可以利用普通的函式知識來研究概率問題,增大了概率的研究範圍。

資料分析之分布分析

aggresult data.groupby by 年齡 年齡 agg 可以看到分組已經成功,但是結果不直觀,從結果反映不出每個年齡的人數 進行數值分段處理 bins min data.年齡 1,20,30,40,max data.年齡 1 labels 20歲及以下 21歲到30歲 31歲到40歲...

資料分析方法之分解分析介紹

在bi系統中,分解分析是結合結構分析與因素分析的一種視覺化的資料分析方法,它可通過使用者互動式的分析操作過程,構造出樹形的分解結構,並結合80 20原理圖來展現因子的資料分布情況。分解分析可用於分析kpi指標的構成因子及其貢獻度。資料分析之分解分析 在分解樹節點上可顯示多種資訊,如指標的數值 佔比 ...

資料分析之分析美國人口

資料 需求 匯入檔案,檢視原始資料 將人口資料和各州簡稱資料進行合併 將合併的資料中重複的abbreviation列進行刪除 檢視存在缺失資料的列 找到有哪些state region使得state的值為nan,進行去重操作 為找到的這些state region的state項補上正確的值,從而去除掉s...