描述性統計的概述與計算

2021-09-11 03:44:04 字數 1625 閱讀 8623

df=pd.dataframe([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])

print(df)

print(df.sum())

print(df.sum(axis=1))

print(df.sum(axis=1,skipna=false)) # 禁止略過nan

idxmax,idxmin:返回的是間接統計資訊,比如最小值,最大值的索引值

# 返回的分別是是每一列的最大值、最小值所在的索引標籤

print(df.idxmax())

print(df.idxmin())

唯一值,計數,成員屬性

唯一值

obj=pd.series(['c','a','d','a','a','b','b','c','c'])

uniques=obj.unique()

print(uniques)

結果輸出

[『c』 『a』 『d』 『b』]

計數

print(obj.value_counts())

print(pd.value_counts(obj.values,sort=false))

結果輸出

a 3

c 3

b 2

d 1

dtype: int64

d 1

c 3

b 2

a 3

dtype: int64

成員屬性 isin

obj=pd.series(['c','a','d','a','a','b','b','c','c'])

mask=obj.isin(['a'])

print(mask)

結果輸出

0 false

1 true

2 false

3 true

4 true

5 false

6 false

7 false

8 false

dtype: bool

想要計算dataframe多個相關列的直方圖(每乙個屬性在每乙個列**現的次數)

data=pd.dataframe()

print(data)

print(result)

結果顯示

qu1 qu2 qu3

0 1 2 1

1 2 3 5

2 4 1 2

3 3 2 4

4 4 3 4

###################################

qu1 qu2 qu3

1 1.0 1.0 1.0

2 1.0 2.0 1.0

3 1.0 2.0 0.0

4 2.0 0.0 2.0

5 0.0 0.0 1.0

結果顯示的最後乙個矩陣,行標籤是所有列**現的不同值,數值則是這些不同值在每個列**現的次數。

描述性統計

上一節,我們談了資料視覺化,並且用python 對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述 1 分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程...

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...

描述性統計

資料分布特徵可以從以下三個方面來描述 資料的水平,反應資料的集中程度 資料的差異,反應資料的離散程度 資料的分布形狀,反應數分布的偏態和峰態。描述資料水平的統計量 平均數 中位數 分位數 眾數。1.1.1 概念 1.1.2 優缺點1.2.1 眾數 1.2.2 中位數 1.2.3 分位數 分位數與中位...