Python資料分析專題 資料探索分析

2021-09-19 10:14:55 字數 889 閱讀 8155

資料探索

2. 統計分析

抽樣2.2 點估計與置信區間

2.3 概率分布

2.4 檢驗

2.5 卡方檢驗

2.6 anova

2.7 ab測試

2.8 態分布

按資料型別選分析方式

3. 估計

se.mean(axis=1)

# 求行的均值

se.median(

)plt.vlines(se.mean(

),ymin=

0,ymax=

3,linewidth=5)

# 繪製均值垂直線

plt.vlines(se.median(

)ymin=

0,ymax=

3,linewidth=

3,color=

'red'

)# 繪製紅色中位數線

df[

'col'

].skew(

)# 大於0-右偏

峰度

import scipy.stats as stats

stats.kurtosis(資料集變數)

分布函式的生成自變數x

因變數y

檢驗方式

連續分類

方差分析

分類連續

方差分析

分類分類

卡方檢驗

連續連續

相關性分析

數值型別集

分類資料集

by 儒冠多誤身 2019/04/21

python資料分析專題 (15) 修改資料

上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。邏輯值索引 邏輯值包括true和false。將邏輯值放入行列中,遇到真值true則返回 false則跳過。不過邏輯值的數目要與行列數一致。邏輯值索引 x mtcars.il...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...

python資料分析

陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...