描述性統計分析

2021-09-25 10:58:36 字數 1990 閱讀 1962

描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。

一、分類變數的常用描述指標

頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數即落在各類別中的資料個數。

累計頻數:累積頻數就是將各類別的頻數逐級累加起來。

百分比:表示乙個數是另乙個數的百分之幾,也叫百分率或百分數。百分比通常採用符號「%」(百分號)來表示。

累計百分比:累積百分比就是將各類別的百分比逐級累加起來。

二、連續變數的描述分析

1、製作頻數表

操作步驟:確定組數,組數k=1+lgn/lg2(n為資料的個數),實際應用時,可根據資料的多少、特點及分析的要求,靈活確定組數;確定組距,組距=(最大值-最小值)÷組數,為便於計算,組距通常取5或10的倍數;確定各組段的上下限

2、描述集中趨勢的指標

均數:指在一組資料中所有資料之和再除以資料的個數。

幾何均數:用於反映一組經對數轉換後呈對稱分布的變數值在數量上的平均水平(適用範圍:對數正態分佈資料或等比資料)。

簡單幾何平均數的計算公式:

加權幾何平均數的計算公式:

中位數:又稱中點數,中值。中位數是按順序排列的一組資料中居於中間位置的數,即在這組資料中,有一半的資料比他大,有一半的資料比他小。

計算公式:

眾數:在一組資料中,出現次數最多的資料;是樣本觀測值在頻數表中頻數最多的那一組的組中值。

百分位數:如果將一組資料從小到大排序,並計算相應的累計百分位,則某一百分位所對應資料的值就稱為這一百分位的百分位數。第25百分位數又稱第乙個四分位數,常用q1表示;第50百分位數(中位數)又稱第二個四分位數,常用q2表示;第75百分位數又稱第三個四分位數,常用q3表示。

3、描述離散趨勢的指標

全距:又稱極差,即資料中最大值與最小值之間的差距。它能體現一組資料波動的範圍。極差越大,離散程度越大,反之,離散程度越小。

方差:用於衡量每乙個變數(觀察值)與總體均數之間的差異。

總體方差計算公式:

樣本方差計算公式:

標準差:是總體各單位標準值與其平均數離差平方的算術平均數的平方根。它反映組內個體間的離散程度,乙個較大的標準差,代表大部分數值和其平均值之間差異較大;乙個較小的標準差,代表這些數值較接近平均值。計算公式就是方差的算術平方根。

變異係數:當需要比較兩組資料離散程度大小的時候,如果兩組資料的測量尺度相差太大,或者資料量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,此時可以用變異係數來進行比較,變異係數的計算公式為:變異係數 c·v =( 標準差 s / 平均值mean )× 100%,在進行資料統計分析時,如果變異係數大於15%,則要考慮該資料可能不正常,應該剔除。

描述性統計分析

import numpy as np import pandas as pd from scipy import stats import os os.chdir c data 第五章 insurance pd.read csv insurance2.csv encoding utf 8 dtype...

3 描述性統計分析

描述定量資料的數值法 中心趨勢的度量 變異性的度量 相對位置的度量 檢測異常值的方法 reference 對給定的類,類 或組 頻數是指落入這個類中的觀測值的個數。對給定的類,類 或組 相對頻率是指落入這個類中的觀測值個數相對於觀測值總數的比例。定性資料的圖形描述常用條形圖,餅圖和帕雷託圖。條形圖 ...

關於描述性統計分析

在資料分析的時候,一般首先要對資料進行描述性統計分析 descriptive analysis 以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析 資料的集中趨勢分析 資料離散程度分析 資料的分布 以及一些基本的統計圖形。1 ...