非正態分佈資料轉換成正態分佈

2022-07-19 10:09:09 字數 1146 閱讀 1764

常用的變數變換方法有對數變換、平方根變換、倒數變換、平方根反正弦變換等,應根據資料性質選擇適當的變數變換方法。

即將原始資料x的對數值作為新的分布資料:

x』=lgx

當原始資料中有小值及零時,亦可取x』=lg(x+1)

還可根據需要選用x』=lg(x+k)或x』=lg(k-x)

對數變換常用於

(1)使服從對數正態分佈的資料正態化。如環境中某些汙染物的分布,人體中某些微量元素的分布等,可用對數正態分佈改善其正態性。

(2)使資料達到方差齊性,特別是各樣本的標準差與均數成比例或變異係數cv接近於乙個常數時。

在numpy 中使用:

轉換成符合正態分佈的資料,log(price+1), 反轉使用:np.expm1()

即將原始資料x的平方根作為新的分布資料。

x』=sqrt(x)

平方根變換常用於:

1)使服從poission分布的計數資料或輕度偏態資料正態化,可用平方根變換使其正態化。

2)當各樣本的方差與均數呈正相關時,可使資料達到方差齊性。

即將原始資料x的倒數作為新的分析資料。

x』=1/x

常用於資料兩端波動較大的資料,可使極端值的影響減小。

即將原始資料x的平方根反正弦值做為新的分析資料。

x』=sin-1sqrt(x)

常用於服從二項分布的率或百分比的資料。一般認為等總體率較小如<30%時或較大(如>70%時),偏離正態較為明顯,通過樣本率的平方根反正弦變換,可使資料接近正態分佈,達到方差齊性的要求。

發現沒有,除了倒數轉換,其他資料值都要求 y 值必須為正值,如果要使用負值呢?可以使用box-cox變換:

逆變換為:

2.當y 可以小於 0 時:

g預設為 1

逆變換為:

python 累積正態分佈函式 截斷正態分佈

截斷正態分佈 truncated normal distribution 是在正態分佈中界定隨機變數進而從正態分佈的分布函式中匯出的概率分布,在計量經濟學中具有廣泛的應用。正態分佈是定義在實數域的概率分布,而截斷正態分佈顧名思義就是在正態分佈中擷取部分區間的概率。截斷正態分佈的定義如下 由截斷正態的...

正態分佈函式

1 使用matlab畫出正態分佈的概率密度函式影象。x 10 0.01 10 y normpdf x,0,1 正態分佈函式。figure axes1 axes pos 0.1 0.1 0.85 0.85 plot x,y set axes1,ylim 0.01 0.43 xlim 3 3 圖1 2 ...

多元正態分佈

1.生成乙個服從多元正態分佈的陣列 multivariate normal mean,cov,size none,check valid none,tol none mean 均值,維度為1,必選引數 cov 協方差矩陣,必選引數 size 指定生成矩陣的維度,若size 1,1,2 則輸出的矩陣的...