01 探索性資料分析

2021-10-23 14:33:11 字數 1310 閱讀 2655

資料競賽基本流程

美國國家標準與技術研究院(national institute of standards and technology,nist)提出探索性資料分析(eda)主要有如下功能:

載入各種資料科學以及視覺化庫:

載入資料:

資料預覽:

判斷資料缺失和異常

#缺失值檢測

# nan視覺化

missing = data.isnull().

sum(

)missing = missing[missing >0]

missing.sort_values(inplace=

true

)missing.plot.bar(

)

了解**值的分布

## 1) 總體分布概況(無界詹森分布等)

import scipy.stats as st

y = data[

'label'

]plt.figure(1)

; plt.title(

'johnson su'

)sns.distplot(y, kde=

false

, fit=st.johnsonsu)

plt.figure(2)

; plt.title(

'normal'

)sns.distplot(y, kde=

false

, fit=st.norm)

plt.figure(3)

; plt.title(

'log normal'

)sns.distplot(y, kde=

false

, fit=st.lognorm)

## 2) 檢視skewness and kurtosis

sns.distplot(data[

'label'])

;print

("skewness: %f"

% data[

'label'

].skew())

print

("kurtosis: %f"

% data[

'label'

].kurt(

))

特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布

數字特徵分析

型別特徵分析

用pandas_profiling生成資料報告

時間序列,需進行型別轉換

pd.to_datetime()

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

Task01 資料載入及探索性資料分析

pandas.read csv 報錯 oserror initializing from file failed,一般由兩種情況引起 一種是函式引數為路徑而非檔名稱,另一種是函式引數帶有中文。對於第一種情況很簡單,原因就是沒有把檔名稱放到路徑的後面,把檔名稱新增到路徑後面就可以了。第二種情況,即使路...