重溫統計學 python實現概括性度量

2021-09-29 14:56:51 字數 2099 閱讀 4233

#匯入所需的包

import pandas as pd

import numpy as np

import seaborn as sns

from scipy import stats

#讀取資料,並用describe檢視資料的分布情況

data = pd.read_excel('./desktop/實踐一.xlsx')

data.describe()

out:

data

count 699.000000

mean 4.417740

std 2.815741

min 1.000000

25% 2.000000

50% 4.000000

75% 6.000000

max 10.000000

#為了方便計算,將資料集轉為列表

data1 = list(data['data'])

#通過numpy、stats求得各個指標

print('平均數:',np.mean(data1))

print('下四分位數:',np.quantile(data1,0.25))

print('中位數:',np.median(data1))

print('上四分位數:',np.quantile(data1,0.75))

print('眾數:',stats.mode(data1)[0][0])

print('標準差:',np.std(data1))

print('偏態係數:',stats.skew(data1))

print('峰態係數:',stats.kurtosis(data1))

out:

平均數: 4.417739628040057

下四分位數: 2.0

中位數: 4.0

上四分位數: 6.0

眾數: 1

標準差: 2.8137258170785375

偏態係數: 0.5915855449527385

峰態係數: -0.6278342838815454

#自定義乙個函式,實現以上功能:

def get_data_describe(data):

n = len(data)

m = int(n/2)

m1 = int((n/2))-1

m2 = int((n/2))+1

data = sorted(data)

data_mean = np.sum(data)/n

if n%2 ==0:

data_median = (data[m1]+data[m2])/2

else:

data_median = data[m]

data_range = [data[i]-data_mean for i in range(len(data))]

data_sd = np.sum([pow(x,2) for x in data_range])/n

data_std = np.sqrt(data_sd)

data_sk = np.sum([pow(x,3) for x in data_range])/(n*pow(data_std,3))

data_kurt=np.sum([pow(x,4) for x in data_range])/(n*pow(data_std,4))-3

print ('平均數:',data_mean)

print ('中位數:',data_median)

print ('方差:',data_sd)

print ('標準差:',data_std)

print('偏態係數:',data_sk)

print('峰態係數:',data_kurt)

get_data_describe(data1)

out:

平均數: 4.417739628040057

中位數: 4

方差: 7.9170529736942825

標準差: 2.8137258170785375

偏態係數: 0.5915855449527385

峰態係數: -0.6278342838815454

重溫統計學 假設驗證

上一期說到三大抽樣分布的主要作用在於引數估計與假設驗證,引數估計已經在重溫統計學 引數估計介紹過了,今天我們來看看假設驗證是什麼,怎麼用?假設檢驗其實很好理解,生活中的例子也很多,最常見的就是應用在法庭上,法官先假設嫌疑犯無罪,然後收集證據,如果有足夠證據證明嫌疑犯有罪,則需要宣判嫌疑犯有罪。假設驗...

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...

Python統計學一資料的概括性度量

統計學是應用數學的乙個分支,主要通過利用概率論建立數學模型,收集所觀察系統的資料,進行量化的分析 總結,並進而進行推斷和 為相關決策提供依據和參考。統計學主要又分為 描述統計學 和推斷統計學 給定一組資料,統計學可以摘要並且描述這份資料,這個用法稱作為描述統計學。另外,觀察者以資料的形態建立出乙個用...