兩組資料的偏差率 考試資料分析六大指標

2021-10-14 13:10:50 字數 2514 閱讀 9473

因為工作的關係,我經常會接觸各類學校的考試資料,很多學校在每次大考後,都會基於大考的資料做一些分析,這其中平均分是眾多學校描述考試資料中最常使用的乙個指標,教師們習慣運用它來衡量班級的整體情況,比較班級在年級中的排名位置,然而考試資料中僅僅運用平均分是否科學?所獲取的資訊是否全面呢?

從上面的例子,我們能看到,如果我們以平均分去計算該班的均分,那麼這2位0分的同學會導致我們描述班級整體考試情況的時候產生較大的偏差。

因此,為了解決這個問題,在實際考試資料描述中,我們還需要運用其他指標去更全面的描述考試資料,以便更準確地理解考試資料背後的資訊。

在這裡,我為大家介紹以下六大常用考試資料指標。

1.平均分

同一考試中,被試分數之和除以分數的個數。平均分是平衡兩側所有分數偏差的平衡分數。

平均分=考生所有分數之和/考生數量

注意特點:平均分對考試資料中極大或極小的資料的存在都非常敏感,考試資料中極大或極小資料的存在,會明顯改變考試資料平均分。

2.中位數

將一組考試資料從小到大排列,正中間的數即為中位數。(如果考試資料為偶數個,通常取最中間的兩個數值的平均數作為中位數)

考試資料中,如果存在極端資料,可以使用中位數了解班級整體情況。(如上文例子)

我們也可以從中位數與平均數的偏離程度,來了解資料整體的分布傾向。

舉例:a班級某一次數學期中考試,班級均分85分,中位數96分,無極端資料,請描述該班級本次考試整體情況?

本次考試a班中位數96分,遠遠大於班級均分85分,班級整體成績負偏明顯,說明本次考試中低分人數較多。

以上兩大指標平均分、中位數,通常是用來描述考試的集中趨勢。均值容易受少數極端值的影響;中位數是樣本資料所佔頻率的等分線,它不會受少數幾個極端值得影響。

然而,即便是兩組考試資料集中趨勢相同,平均分相同,分數的變化情況也可能非常不同。為了描述資料之間的差異,統計學中通過離散性指標來描述資料的分散程度。

3.標準差

標準差用來描述所有觀察值與平均值的距離。一組資料變化越大,那它的標準差就越大。

標準差公式

由標準差公式可知,標準差反映觀察值與平均值的距離之和,當資料中包含極值時,標準差容易受其影響。

那麼兩組資料的標準差可以用來比較麼?一般而言,平均數相同的兩組資料是可以比較其標準差的,標準差越小,該組資料離散越小,即波動越小。

4.四分位距

用標準差來描述資料的離散程度時,如受到極值影響,那麼標準差會出現偏差。如何來避免其受極值影響呢?在統計學中,我們可以用到四分位距來描述資料組的離散程度。

四分位距iqr是基於百分位數的測度。將一組資料從小到大公升序排列,分為3個四分位數,中數記為第二個四分位q2,中數以下這部分資料的中數記為第一四分位q1,中數以上這部分資料的中數記為第三四分位記為q3。

圖:正態分佈下的四分位數

四分位距iqr=q3-q1,四分位距給出了50%觀察值的距離,四分位距越大,觀察值越分散。

舉例:某次大型數學考試,滿分150分,平均分107分,第二四分位中位數109分,第一四分位q1:94分,第三四分位q3:120分,描述a班成績情況。

從資料看,本班均分107分,班級均分略低於中位數,班級無明顯異常資料。本次考試中有50%的學生分數集中在94分-120分,四分位距為26分。

平均數、中位數描述了考試資料的集中趨勢,標準差、四分位距描述了考試資料的離散程度,可縱然這四大指標還是不能完整的描述考試資料的分布。下面給大家介紹兩個描述資料分布的常用指標,偏度和峰度。

5.偏度

統計學中的偏度描述資料分布的對稱性。

偏度指數等於0,資料呈正態分佈,平均數與中位數相等。班級高分與低分人數分布相當。

偏度指數大於0,資料呈正偏態(右偏態),平均分大於中數。如果均分遠大於中數,說明班級高分人數較多。

偏度指數小於0,資料呈負偏態(左偏態),此時平均分小於中數。如果均分遠小於中數,說明班級低分人數較多。

一般偏度指數在-0.5到+0.5之間,我們即認為資料正態分佈。

6.峰度

峰度描述資料圍繞平均分分布的緊密程度。

峰度等於3,認為是常峰態,一般來說正態分佈的資料為常峰態,高分與低分人群分布相當。

峰度小於3時,認為是低峰態,中間部分資料少,兩端資料高。如果班級成績呈現該峰態,說明班級成績兩極分化較為嚴重,教師要自行調研原因。

峰度大於3時,為尖峰態,僅有一部分資料分布在少數的位置,位置隨機。如果班級成績在低分位置呈尖峰態,表示班級有小部分學生成績在低分段,教師要去調研原因,了解這部分同學的實際情況,是否有教學風氣問題等。

兩組資料的偏差怎麼算 如何衡量資料分布的差異程度?

假設一筆投資的回報情況是第一周盈利1元,第二週盈利10元,第三週盈利100元,那麼每週盈利的均值 1 10 100 3 37元。在這裡,均值體現的是收益率分布的中心在 但並沒有體現出收益率的分布差異程度。因此在衡量一組資料的分布情況時,不能只看資料的集中程度,為了量化該組資料中某一具體數值分布的精確...

兩組的資料平均值合併 2 資料分析之描述統計分析

1 學習資料分析有什麼意義?有乙個很典型的例子我跟大家分享一下。某次戰爭,某個國家針對飛回來戰機上的彈孔進行分析。有人建議,把飛機上彈孔多的地方進行加固,因為容易被擊中。而有人認為,應該加固彈孔少的地方,因為彈孔少的地方飛機都沒有飛回來。所以資料分析的意義,讓你透過現象,看到本質。2 什麼是描述統計...

python計算兩組資料的P值

我們在做a b試驗評估的時候需要借助p value,這篇文章記錄如何利用python計算兩組資料的顯著性。一 ttest.py coding utf 8 created on 2020 05 20 20 36 ttest.py author huiwenhua import the packages...