資料特徵分析 統計分析

2022-07-24 13:03:25 字數 3747 閱讀 7565

統計分析是對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面分析。

集中趨勢:指一組資料向某一中心靠攏的傾向,核心在於尋找資料的代表值或中心值-統計平均數(算數平均數和位置平均數)

算術平均數:簡單算術平均數和權重算術平均數

位置平均數:中位數和眾數

離中趨勢:

極差和分位差

標準差和方差

隨機生成整數和總和為1的百分佔比

df = pd.dataframe()

df['

f'] = df['

f']/df['

f'].sum()

算術平均數

mean = df['

value

'].mean()

mean_f = (df['

value

'] * df['

f']).sum()/df['f'

].sum()

print('

簡單算術平均數:%.2f

'%mean)

print('

權重算術平均數:%2.f

'%mean_f)

#簡單算術平均數:48.34

#權重算術平均數:51

位置平均數

m = df['

value

'].mode().tolist() #

seris資料型別可通過tolist()或to_list()轉化為列表

med = df['

value

'].median()

print('

眾數為:

',m)

print('

中位數為:

',med)

#眾數為: [85]

#中位數為: 48.0

集中趨勢密度圖

df['

value

'].plot(kind = '

kde'

)plt.axvline(mean,linestyle='

--',color = 'r'

)plt.text(mean+5,0.002,'

簡單算術平均數

',color = 'r'

)plt.axvline(mean_f,linestyle='

--',color = 'y'

)plt.text(mean_f+5,0.004,'

加權算術平均數

',color = 'y'

)plt.axvline(med,linestyle='

--',color = 'g'

)plt.text(med - 30,0.006,'

中位數',color = '

隨機生成dataframe,表示對應日期的銷量

df = pd.dataframe(,index = pd.date_range('

2019/6/1

','2019/6/30

'))

極差和分位差

a_jc = df['

a_sale

'].max() - df['

a_sale

'].min()

b_jc = df['

b_sale

'].max() - df['

b_sale

'].min()

print('

產品a銷售額極差為%.2f,產品b銷售額極差為%.2f

'%(a_jc,b_jc))

a_des = df['

a_sale

'].describe()

b_des = df['

b_sale

'].describe()

a_iqr = a_des['

75%'] - a_des['

25%'

]b_iqr = b_des['

75%'] - b_des['

25%'

]print('

產品a銷售額分位差為%.2f,產品b銷售額分位差為%.2f

'%(a_iqr,b_iqr))

#產品a銷售額極差為968.05,產品b銷售額極差為946.94

#產品a銷售額分位差為550.63,產品b銷售額分位差為479.76

箱型圖展示離散關係

假設有n個樣本,x1、x2...xn,算術平均數為x

方差:( (x1-x)^2 + (x2-x)^2 + ...+ (xn-x)^2 )/n

標準差:方差的平方根

a_std = df['

a_sale

'].std()

a_var = df['

a_sale

'].var()

b_std = df['

b_sale

'].std()

b_var = df['

b_sale

'].var()

print('

產品a銷售額標準差為%.2f,方差為%.2f

'%(a_std,a_var))

print('

產品b銷售額標準差為%.2f,方差為%.2f

'%(b_std,b_var))

#產品a銷售額標準差為304.25,方差為92565.69

#產品b銷售額標準差為297.36,方差為88424.61

密度圖展示中位數、方差

資料的統計分析

資料預處理之後,我們要做一些統計分析,來觀察我們的資料,這其中包括 描述性分析 統計推斷。描述性分析 主要是統計指標 圖表。1 集中趨勢分析 除了分位數,我們還可以結合 中位數 眾數 平均數三者的關係。具體地 眾數在中位數左側,平均數在中位數右側,則此時資料呈正偏態分布,又叫右偏,存在極大異常值。是...

多元統計分析 聯合分析

通過假定的產品具有某些特徵,對產品進行模擬,然後讓消費者根據自己的喜好來對虛擬產品進行評價,在利用統計方法將這些特徵的重要性與效用分離,從而得出對每一特徵以及特徵水平的重要程度做出量化評價。主要解決的問題 顯示屬性及其不同水平的相對重要性 顯示屬性不同水平間的最優組合 進行市場細分 模擬占有率 特徵...

資料統計分析方法

資料統計分析方法 描述統計 假設檢驗 相關分析 方差分析 回歸分析 聚類分析 主成分與因子分析 時間序列分析 決策樹。回歸分析 研究自變數與因變數之間的關係 可以用來 因變數的值 線性回歸使用最佳的擬合直線 也就是回歸線 在因變數 y 和乙個或多個自變數 x 之間建立一種關係。多元線性回歸可表示為y...