Python統計學一資料的概括性度量

2021-07-23 21:04:13 字數 2684 閱讀 5268

統計學是應用數學的乙個分支,主要通過利用概率論建立數學模型,收集所觀察系統的資料,進行量化的分析、總結,並進而進行推斷和**,為相關決策提供依據和參考。

統計學主要又分為

描述統計學

和推斷統計學

。給定一組資料,統計學可以摘要並且描述這份資料,這個用法稱作為描述統計學。另外,觀察者以資料的形態建立出乙個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。

眾數:眾數(mode),是一組資料中出現次數最多的數值,叫眾數,有時眾數在一組數中有好幾個。用m表示。

中位數:中位數(median)是指將資料按大小順序排列起來,形成乙個數列,居於數列中間位置的那個資料。中位數用me表示。計算公式:

四分位數:四分位數(quartile)把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。

ql=下四分位數,即第25百分位數(n  / 4);qu=上四分位數,即第75百分位數(

3n  / 4

)。平均數:算術平均數(arithmetic mean)算術平均數是指資料中各觀測值的總和除以觀測值個數所得的商,簡稱平均數或均數。

四分位差:四分位差(quartile deviation),也稱為內距或四分間距(inter-quartile range),它是上四分位數(qu,即位於75%)與下四分位數(ql,即位於25%)的差。

極差:全距(range),又稱極差,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距

方差

方差(variance)(樣本方差)是各個資料分別與其平均數之差的平方的和的平均數,通常以σ2表示,方差的計算公式為:

標準差

標準差 (standard deviation),也稱均方差(mean square error),

離散係數:離散係數又稱變異係數,cv(coefficient of variance)表示。cv(coefficient of variance):標準差與均值的比值。離散係數越小,資料的離散程度就越小,反之,亦然。

偏態係數:偏度(skewness)亦稱偏態、偏態係數,偏度是統計資料分布偏斜方向和程度的度量,是統計資料分布非對稱程度的數字特徵。sk>0時,分布呈正偏態(右偏),sk<0時,分布呈負偏態(左偏)。

峰態係數:(kurtosis)峰度係數是用來反映頻數分布曲線頂端尖峭或扁平程度的指標。在正態分佈情況下,峰度系數值是3。>3的峰度係數說明觀察量更集中,有比正態分佈更短的尾部;<3的峰度係數說明觀測量不那麼集中,有比正態分佈更長的尾部,類似於矩形的均勻分布。峰度係數的標準誤用來判斷分布的正態性。峰度係數與其標準誤的比值用來檢驗正態性。如果該比值絕對值大於2,將拒絕正態性。

#以下**基於python3.5環境編寫

import numpy as np

import stats as sts

scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,

32, 34, 43, 41, 21, 23, 26, 26, 34, 42,

43, 25, 24, 23, 24, 44, 23, 14, 52,32,

42, 44, 35, 28, 17, 21, 32, 42, 12, 34]

#集中趨勢的度量

print('求和:',np.sum(scores))

print('個數:',len(scores))

print('平均值:',np.mean(scores))

print('中位數:',np.median(scores))

print('眾數:',sts.mode(scores))

print('上四分位數',sts.quantile(scores,p=0.25))

print('下四分位數',sts.quantile(scores,p=0.75))

#離散趨勢的度量

print('最大值:',np.max(scores))

print('最小值:',np.min(scores))

print('極差:',np.max(scores)-np.min(scores))

print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))

print('標準差:',np.std(scores))

print('方差:',np.var(scores))

print('離散係數:',np.std(scores)/np.mean(scores))

#偏度與峰度的度量

print('偏度:',sts.skewness(scores))

print('峰度:',sts.kurtosis(scores))

重溫統計學 python實現概括性度量

匯入所需的包 import pandas as pd import numpy as np import seaborn as sns from scipy import stats 讀取資料,並用describe檢視資料的分布情況 data pd.read excel desktop 實踐一.xl...

統計學如何用少量資料概括資料(相關概念

用少量資料來概括大量數字是日常生活中常見的。那麼可以用少量所謂匯 計量或概括統計量 summary statistic 來描述定量變數的資料。任何樣本的函式,只要不包含總體的未知引數,都稱為統計量 statistic 那麼樣本的隨機性決定了統計量的隨機性。資料的 位置 比如說哪個地方窮,那個地方富,...

統計學任務一

1 總體和樣本基本概念 1 總體 表示研究物件的整個群體。2 樣本 表示從總體中選取的一部分。2 總體方差和樣本方差 1 定義 總體方差 總體方差是一組資料中各數值與其算術平均數離差平方和的平均數 公式為 樣本方差 樣本方差是指構成樣本的隨機變數對離散中心 x之離差的平方和除以n 1,樣本方差用來表...