描述性統計

2021-09-29 12:30:06 字數 1474 閱讀 1573

上一節,我們談了資料視覺化,並且用python**對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述:1、分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程度;2、分布的離散程度,反應各資料遠離其中心值的趨勢;3、分布的形狀,反應資料分布的偏態和峰態。

集中趨勢是指一組資料向某一中心值靠攏的程度,它反應了一組資料中心的位置所在。

眾數:是一組資料**現次數最多的變數值,不受資料中極端值的影響。如果資料的分布沒有明顯的集中趨勢或最高峰點,眾數可能不存在;如果有兩個或多個最高峰點,則可以有兩個或多個高峰點,則可以有兩個或多個眾數。

中位數:是一組資料排序後處於中間位置上的變數值。中位數主要用於測度順序資料的集中趨勢,也適用於測度數值型資料的集中趨勢,但不適用於分類資料。

平均數:是一組資料相加後除以資料的個數得到的結果。

資料的離散程度是資料分布的另乙個重要特徵,它反映的是各變數值離其中心值的程度。資料的離散程度越大,集中趨勢的測度值對該組資料的代表性就越差;離散程度越小,其代表性就越好。

異眾比率:是指非眾陣列的頻數佔總頻數的比例。異眾比率主要用於衡量眾數對一組資料的代表程度。

四分位差:也稱為內距或四分間距,它是上四分位數與下四分位數之差。四分位差反映了中間50%的資料的離散程度,數值越小,說明中間的資料越集中;資料越大,說明中間的資料越分散。

極差:一組資料的最大值與最小值之差稱為極差,也稱全距。極差是最簡單的描述資料離散程度的測度值。但極差不能反應中間資料的分散狀況,因而不能準確描述出資料的分散程度。

平均差:是各變數值域其平均數離差絕對值的平均數。

方差:是各變數值與其平均數離差平方的平均數。它在數學處理上通過平方的辦法消去離差的正負號,然後再進行平均。

離散係數:也稱為變異係數,它是一組資料的標準差與其相應的平均數之比。離散係數是測度資料離散程度的統計量,主要用於比較不同贗本資料的離散程度。離散係數大,說明資料的離散程度也大;離散係數小,說明資料的離散程度也小。

集中趨勢和離散程度是資料分布的兩個重要特徵,但要全面了解資料分布的特點,還是需要知道資料分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等。

偏態:是對資料分布對稱性的測度。測量偏態的統計是偏態係數。

峰態:是對資料分布平峰或尖峰程度的測度。測度峰態的統計量是峰態係數。

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...

描述性統計

資料分布特徵可以從以下三個方面來描述 資料的水平,反應資料的集中程度 資料的差異,反應資料的離散程度 資料的分布形狀,反應數分布的偏態和峰態。描述資料水平的統計量 平均數 中位數 分位數 眾數。1.1.1 概念 1.1.2 優缺點1.2.1 眾數 1.2.2 中位數 1.2.3 分位數 分位數與中位...

描述性統計

選擇你想要統計的指標,點選確定 得到描述性統計 圖形 舊對話方塊 散點圖 點圖 矩陣散點圖 定義 將變數全部移到右邊 確定 生成如下散點圖 若從散點圖中能夠看到兩個變數之間呈大概的線性關係,則計算其相關係數 否則判斷其線性相關程度低。clear clc load physical fitness t...