資料分析之分布函式

一. 概念解釋

pdf：概率密度函式（probability density function）, 在數學中，連續型隨機變數的概率密度函式（在不至於混淆時可以簡稱為密度函式）是乙個描述這個隨機變數的輸出值，在某個確定的取值點附近的可能性的函式。 pmf : 概率質量函式（probability mass function), 在概率論中，概率質量函式是離散隨機變數在各特定取值上的概率。

cdf : 累積分布函式 (cumulative distribution function)，又叫分布函式，是概率密度函式的積分，能完整描述乙個實隨機變數x的概率分布。

二. 數學表示

pdf：如果x是連續型隨機變數，定義概率密度函式為fx(x)，用pdf在某一區間上的積分來刻畫隨機變數落在這個區間中的概率，即

pr(a≤x≤b)=∫bafx(x)dx

pmf：如果x

離散型隨機變數，定義概率質量函式為fx(x)

,pmf其實就是高中所學的離散型隨機變數的分布律,即

fx(x)=pr(x=x)

比如對於擲一枚均勻硬幣，如果正面令x=1，如果反面令x=0，那麼它的pmf就是

fx(x)=0 if x?

cdf：不管是什麼型別（連續/離散/其他）的隨機變數，都可以定義它的累積分布函式，有時簡稱為分布函式。

對於連續型隨機變數，顯然有fx(x)=pr(x≤x)=∫x?∞fx(t)dt

那麼cdf就是pdf的積分，pdf就是cdf的導數。

對於離散型隨機變數，其cdf是分段函式，比如舉例中的擲硬幣隨機變數，它的cdf為

fx(x)=pr(x≤x)=?????0 if x<012 if 0≤x<11 if x≥1

三.概念分析

根據上述，我們能得到一下結論：

１）pdf是連續變數特有的，pmf是離散隨機變數特有的；

２）pdf的取值本身不是概率，它是一種趨勢（密度）只有對連續隨機變數的取值進行積分後才是概率，也就是說對於連續值確定它在某一點的概率是沒有意義的；

３）pmf的取值本身代表該值的概率。

四.分布函式的意義

我們從兩點來分析分布函式的意義：

1.為什麼需要分布函式？

對於離散型隨機變數，可以直接用分布律來描述其統計規律性，而對於非離散型的隨機變數，如連續型隨機變數，因為我們無法一一枚舉出隨機變數的所有可能取值，所以它的概率分布不能像隨機變數那樣進行描述，於是引入pdf，用積分來求隨機變數落入某個區間的概率。分布律不能描述連續型隨機變數，密度函式不能描述離散隨機變數，因此需要找到乙個統一方式描述隨機變數統計規律，這就有了分布函式。另外，在現實生活中，有時候人們感興趣的是隨機變數落入某個範圍內的概率是多少，如擲骰子的數小於3點的獲勝，那麼考慮隨機變數落入某個區間的概率就變得有現實意義了，因此引入分布函式很有必要。

2. 分布函式的意義

分布函式f(x)

在點x處的函式值表示x落在區間(?∞,x]內的概率，所以分布函式就是定義域為r

的乙個普通函式，因此我們可以把概率問題轉化為函式問題，從而可以利用普通的函式知識來研究概率問題，增大了概率的研究範圍。

資料分析之分布分析

aggresult data.groupby by 年齡年齡 agg 可以看到分組已經成功，但是結果不直觀，從結果反映不出每個年齡的人數進行數值分段處理 bins min data.年齡 1,20,30,40,max data.年齡 1 labels 20歲及以下 21歲到30歲 31歲到40歲...

資料分析方法之分解分析介紹

在bi系統中，分解分析是結合結構分析與因素分析的一種視覺化的資料分析方法，它可通過使用者互動式的分析操作過程，構造出樹形的分解結構，並結合80 20原理圖來展現因子的資料分布情況。分解分析可用於分析kpi指標的構成因子及其貢獻度。資料分析之分解分析在分解樹節點上可顯示多種資訊，如指標的數值佔比 ...

資料分析之分析美國人口

資料需求匯入檔案，檢視原始資料將人口資料和各州簡稱資料進行合併將合併的資料中重複的abbreviation列進行刪除檢視存在缺失資料的列找到有哪些state region使得state的值為nan，進行去重操作為找到的這些state region的state項補上正確的值，從而去除掉s...

資料分析之分布函式

資料分析之分布分析

資料分析方法之分解分析介紹

資料分析之分析美國人口

相關推薦