乾貨放前面
常常存在資料維度過大而用data.head()時候會有列中存在省略號的情況
此次金融風控可能無法直接看到n1到n14的所有資訊,可用下面解決
#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的
:1. 1.eda價值主要在於熟悉了解整個資料集的基本情況(缺失值,異常值),對資料集進行驗證是否可以進行接 下來的機器學習或者深度學習建模.2. 2.了解變數間的相互關係、變數與**值之間的存在關係。3.為特徵工程做準備
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings(
'ignore'
)
#檔案讀取
data_train=pd.read_csv(
'./train.csv'
)#檢視當前路徑
os.getcwd(
)#檢視資料的原始維度
data_train.shape(
)#檢視列名稱,也叫特徵名稱
data_train.columns(
)#熟悉資料型別
data_train.info(
)#檢視資料集的一些基本統計量
data_train.describe(
)#檢視資料前幾列
data_train.head(5)
#5列#檢視資料後幾列
data_train.tail(5)
#檢視資料總共有幾列有缺失
data_train.isnull().
any().
sum(
)#檢視某一列的統計規律
data_train[
'term'
].valu_counts(
)
plt.figure(figsize=(8
,8))
sns.barplot(data_train[
"employmentlength"
].value_counts(dropna=
false)[
:20],data_train[
"employmentlength"
].value_counts(dropna=
false
).keys()[
:20])
plt.show(
)
EDA 探索性資料分析
引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...
EDA(探索性資料分析)
1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...
01 探索性資料分析
資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...