金融風控探索性資料分析

乾貨放前面

常常存在資料維度過大而用data.head()時候會有列中存在省略號的情況

此次金融風控可能無法直接看到n1到n14的所有資訊，可用下面解決

#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的：1. 1.eda價值主要在於熟悉了解整個資料集的基本情況（缺失值，異常值），對資料集進行驗證是否可以進行接下來的機器學習或者深度學習建模.2. 2.了解變數間的相互關係、變數與**值之間的存在關係。3.為特徵工程做準備

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings(
'ignore'
)

#檔案讀取
data_train=pd.read_csv(
'./train.csv'
)#檢視當前路徑
os.getcwd(
)#檢視資料的原始維度
data_train.shape(
)#檢視列名稱，也叫特徵名稱
data_train.columns(
)#熟悉資料型別
data_train.info(
)#檢視資料集的一些基本統計量
data_train.describe(
)#檢視資料前幾列
data_train.head(5)
#5列#檢視資料後幾列
data_train.tail(5)
#檢視資料總共有幾列有缺失
data_train.isnull().
any().
sum(
)#檢視某一列的統計規律
data_train[
'term'
].valu_counts(
)

plt.figure(figsize=(8
,8))
sns.barplot(data_train[
"employmentlength"
].value_counts(dropna=
false)[
:20],data_train[
"employmentlength"
].value_counts(dropna=
false
).keys()[
:20])
plt.show(
)

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵統計特徵分布特徵相關性等進行挖掘,但是沒有刪除或構造任何特徵花式查詢,不包括增刪改 1 載入各種資料科學以及視覺化庫資料科學庫 pandas ...

EDA（探索性資料分析）

1 什麼是eda分析？exploratory data analysis 在特徵資料處理的過程中，對資料進行探索，找到他們之間的更多潛在關係。2 怎麼去做eda分析？主要是通過資料視覺化來顯示資料之間的關聯，從而對資料進行處理。首先，我們應該思考的是是否會出現下列問題 1 資料是否缺失，有沒有離群...

01 探索性資料分析

資料競賽基本流程美國國家標準與技術研究院 national institute of standards and technology，nist 提出探索性資料分析 eda 主要有如下功能載入各種資料科學以及視覺化庫載入資料資料預覽判斷資料缺失和異常缺失值檢測 nan視覺化 missin...

金融風控 探索性資料分析

EDA 探索性資料分析

EDA（探索性資料分析）

01 探索性資料分析

相關推薦

金融風控探索性資料分析