金融風控 探索性資料分析

2021-10-09 14:14:03 字數 1429 閱讀 8510

乾貨放前面

常常存在資料維度過大而用data.head()時候會有列中存在省略號的情況

此次金融風控可能無法直接看到n1到n14的所有資訊,可用下面解決

#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的:1. 1.eda價值主要在於熟悉了解整個資料集的基本情況(缺失值,異常值),對資料集進行驗證是否可以進行接 下來的機器學習或者深度學習建模.2. 2.了解變數間的相互關係、變數與**值之間的存在關係。3.為特徵工程做準備

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

import datetime

import warnings

warnings.filterwarnings(

'ignore'

)

#檔案讀取

data_train=pd.read_csv(

'./train.csv'

)#檢視當前路徑

os.getcwd(

)#檢視資料的原始維度

data_train.shape(

)#檢視列名稱,也叫特徵名稱

data_train.columns(

)#熟悉資料型別

data_train.info(

)#檢視資料集的一些基本統計量

data_train.describe(

)#檢視資料前幾列

data_train.head(5)

#5列#檢視資料後幾列

data_train.tail(5)

#檢視資料總共有幾列有缺失

data_train.isnull().

any().

sum(

)#檢視某一列的統計規律

data_train[

'term'

].valu_counts(

)

plt.figure(figsize=(8

,8))

sns.barplot(data_train[

"employmentlength"

].value_counts(dropna=

false)[

:20],data_train[

"employmentlength"

].value_counts(dropna=

false

).keys()[

:20])

plt.show(

)

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

01 探索性資料分析

資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...