資料的偏態分布

2022-05-18 19:22:37 字數 1129 閱讀 6792

一、何為資料的偏態分布?

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在**位置,兩端的頻數分布大致對稱。

偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布;集中位置偏向數值大的一側,稱為負偏態分布

如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布;同樣的,如果頻數分布的高峰向右偏移,長尾向左延伸則成為負偏態分布,也稱左偏態分布

峰左移,右偏,正偏

峰右移,左偏,負偏

性質:

1、當總體分布呈對稱狀態時,中位數=平均數

2、當總體分布呈右偏態狀態時,說明存在極大值,會把平均值向極大值方向拉,中位數《平均數

3、當總體分布呈左偏態狀態時,說明存在極小值,會把平均值向極小值方向拉,中位數》平均數

偏態分布只有滿足一定的條件(如樣本例數夠大等)才可以看做近似正態分佈。

與正態分佈相對而言,偏態分布有兩個特點

一是左右不對稱(即所謂偏態);

二是當樣本增大時,其均數趨向正態分佈。

二、構建模型時為什麼要盡量將偏態資料轉換為正態分佈資料?

資料整體服從正態分佈,那樣本均值和方差則相互獨立。正態分佈具有很多好的性質,很多模型假設資料服從正態分佈。例如線性回歸(linear regression),它假設誤差服從正態分佈,從而每個樣本點出現的概率就可以表示成正態分佈的形式,將多個樣本點連乘再取對數,就是所有訓練集樣本出現的條件概率,最大化這個條件概率就是lr要最終求解的問題。這裡這個條件概率的最終表示式的形式就是我們熟悉的誤差平方和。總之,ml中很多model都假設資料或引數服從正態分佈。

資料的偏態分布

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。統計資料峰值與平均值相等的頻率分布。偏態分布是指頻數分布不對稱,集中位置偏向一側。統計資料峰值與平均值不相等的頻率分布。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如...

偏態分布(Skewed distribution)

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布 同...

偏態分布(Skewed distribution)

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布 同...