資料的描述性統計 資料的集中趨勢描述

2021-09-25 08:37:34 字數 2410 閱讀 1951

1.2 幾何平均值

1.3 眾數

1.4 中位數

資料分析的物件主要是結構化資料,這些資料可能是連續性資料,也可能是離散型資料;可能是定類和定序資料,也可能是定距和定比資料。雖然資料的型別有很多,但是所有的結構化資料都可以從三個維度進行描述,它們分別是資料的集中趨勢描述、資料的離散程度描述和資料的分布形態描述。

資料的集中趨勢描述是尋找反映事物特徵的資料集合的代表值或中心值,這個代表值或中心值可以很好地反映事物目前所處的位置和發展水平,通過對事物集中趨勢指標的多次測量和比較,還能說明事物的發展和變化趨勢。人均gdp就是乙個集中趨勢。

算術平均值是最常用的資料集中趨勢指標,可以分為簡單算術平均值和加權算術平均值。算術平均值主要用於定距資料,表示資料集合的集中趨勢。

def:假設有一組包含n

nn個數值的資料集合,它們的數值分別為x

1x_1

x1​,x

2x_2

x2​,...

.....

.,xn

x_nxn

​,該資料集合的簡單算術平均值的計算公式為:

x ‾=

x1+x

2+..

.+xn

n\overline=\frac

x=nx1​

+x2​

+...

+xn​

def:假設有乙個資料集合,總共包括k

kk個不同類別的資料組,各組的簡單算術平均值表示為x1‾

,x2‾

,...

,xk‾

\overline,\overline,...,\overline

x1​​,x

2​​,

...,

xk​​

,每個資料組的數值個數分別為f1,

f2,.

..,f

kf_1,f_2,...,f_k

f1​,f2

​,..

.,fk

​,每組的數值個數就是每個資料組的權重,則加權算術平均值的計算公式為:

m =f

1x1‾

+f2x

2‾+.

..+f

kxk‾

f1+f

2+..

.+fk

m=\frac+f_2\overline+...+f_k\overline}

m=f1​+

f2​+

...+

fk​f

1​x1

​​+f

2​x2

​​+.

..+f

k​xk

​​​:受樣本資料波動的影響最小,具有一定的穩定性;

:當資料集合中有極大值或極小值存在時,會對算術平均值產生很大的影響,其計算結果會掩蓋資料集合的真實特徵,失去了代表性;

def:假設有乙個定比資料集合,集合中的數值分別為x1,

x2,.

..,x

nx_1,x_2,...,x_n

x1​,x2

​,..

.,xn

​,且所有的數值均大於0,那麼改資料集合的幾何平均值的計算公式為:

x j‾

=x1x

2...

xn

n\overline=\sqrt[n]

xj​​=n

x1​x

2​..

.xn​

適用於:資料之間是乘除關係的,如銀行的平均存款年利率、汽車工廠每條生產線的平均產品合格率、國家十年來的平均發展速度等;幾何平均值被用於各種定比資料的平均值計算。

def:資料集合**現次數最多的數值被稱為眾數。

如果在乙個資料集合中,只有乙個數值出現的次數最多,那麼這個數值就是該資料集合的眾數;如果有兩個或多個數值的出現次數並列最多,那麼這兩個或多個數值都是該資料集合的眾數;如果資料集合中所有資料值出現的次數相同,那麼該資料集合沒有眾數。

適用於:對定類資料、定序資料、定距資料和定比資料都適用,都能表示由它們組成的資料集合的資料集中趨勢。

def:對於資料集合(x1

,x2,

...,

xn

)(x_1,x_2,...,x_n)

(x1​,x

2​,.

..,x

n​),將所有的數值按照它們的大小,從高到低或從低到高進行排序,如果資料集合包含的數值個數是基數,那麼排在最中間的數值就是該資料集合的中位數;如果資料集合的數值個數是偶數,那麼取最中間兩個數值的算術平均值作為中位數。

好處:不受資料集合中個別極端值的影響,表現出穩定的特點。

資料的描述性統計

對資料的描述分為三個維度,分別是 資料的集中趨勢 資料的離中趨勢和資料的分布形態。描述資料集中趨勢的指標有眾數 中位數和平均數,其中平均數又分為算數平均數 加權平均數和幾何平均數 眾數資料集合 現次數最多的數值被稱為眾數。如果乙個資料集合中,只有乙個數值出現最多,那麼這個數值就是該資料集合的眾數。眾...

NO1 資料的描述性統計

很有幸加入了居士的資料自習室,大家互相監督一起學習。希望自己可以堅持下去。1.算數平均值分為簡單算數平均值和加權算數平均值 簡單算數平均值 資料集合中所有數的和除以資料的個數 加權算數平均值 針對資料集合中每個資料值的重要程度不一的情況,採用所有資料值乘以相應權重值的和再除以資料個數來計算 算數平均...

資料描述性統計度量方法

資料描述性統計度量主要包括 集中趨勢和離散趨勢 集中趨勢的度量主要包括 均值 眾數 中位數 均值擴充套件 1 帶權平均值 權重反應的是樣本在總體樣本中的意義 重要性或出現的頻率。帶權平均值主要用於應對不同樣本的權重不一樣。2 截尾平均值 截尾均值是指丟棄極端樣本值後的均值。主要用於抵消少數極端值的影...