資料的偏態分布

一、何為資料的偏態分布？

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在**位置，兩端的頻數分布大致對稱。

偏態分布是指頻數分布不對稱，集中位置偏向一側。若集中位置偏向數值小的一側，稱為正偏態分布；集中位置偏向數值大的一側，稱為負偏態分布。

如果頻數分布的高峰向左偏移，長尾向右側延伸稱為正偏態分布，也稱右偏態分布；同樣的，如果頻數分布的高峰向右偏移，長尾向左延伸則成為負偏態分布，也稱左偏態分布。

峰左移，右偏，正偏

峰右移，左偏，負偏

性質：

1、當總體分布呈對稱狀態時，中位數=平均數

2、當總體分布呈右偏態狀態時，說明存在極大值，會把平均值向極大值方向拉，中位數《平均數

3、當總體分布呈左偏態狀態時，說明存在極小值，會把平均值向極小值方向拉，中位數》平均數

偏態分布只有滿足一定的條件（如樣本例數夠大等）才可以看做近似正態分佈。

與正態分佈相對而言，偏態分布有兩個特點：

一是左右不對稱（即所謂偏態）；

二是當樣本增大時，其均數趨向正態分佈。

二、構建模型時為什麼要盡量將偏態資料轉換為正態分佈資料？

資料整體服從正態分佈，那樣本均值和方差則相互獨立。正態分佈具有很多好的性質，很多模型假設資料服從正態分佈。例如線性回歸(linear regression)，它假設誤差服從正態分佈，從而每個樣本點出現的概率就可以表示成正態分佈的形式，將多個樣本點連乘再取對數，就是所有訓練集樣本出現的條件概率，最大化這個條件概率就是lr要最終求解的問題。這裡這個條件概率的最終表示式的形式就是我們熟悉的誤差平方和。總之，ml中很多model都假設資料或引數服從正態分佈。

資料的偏態分布

資料的偏態分布

偏態分布（Skewed distribution）

偏態分布（Skewed distribution）

資料的偏態分布

資料的偏態分布

偏態分布（Skewed distribution）

偏態分布（Skewed distribution）

相關推薦