金融風控 task02資料分析

2021-10-09 14:18:11 字數 1212 閱讀 5055

檢視含缺失值列數

print

(f'there are columns in train dataset with missing values.'

)

缺失率視覺化

missing = data_train.isnull().

sum()/

len(data_train)

missing = missing[missing >0]

missing.sort_values(inplace=

true

)missing.plot.bar(

)

數值型變數分析:劃分數值型變數中的連續變數和離散型變數

#過濾數值型類別特徵

defget_numerical_serial_fea

(data,feas)

: numerical_serial_fea =

numerical_noserial_fea =

for fea in feas:

temp = data[fea]

.nunique(

)if temp <=10:

continue

return numerical_serial_fea,numerical_noserial_fea

numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(data_train,numerical_fea)

數值類別型變數統計

列名.value_counts(

)#離散型變數

數值連續型變數統計

#每個數字特徵得分布視覺化

f = pd.melt(data_train, value_vars=numerical_serial_fea)

g = sns.facetgrid(f, col=

"variable"

, col_wrap=

2, sharex=

false

, sharey=

false

)g = g.

map(sns.distplot,

"value"

)

金融風控 探索性資料分析

乾貨放前面 常常存在資料維度過大而用data.head 時候會有列中存在省略號的情況 此次金融風控可能無法直接看到n1到n14的所有資訊,可用下面解決 1最大展示60列 pd.set option display.max columns 60 最大展示60行 pd.set option displa...

金融風控 Task01

題目理解 通過這道賽題來引導大家走進金融風控資料競賽的世界,主要針對於於競賽新人進行自我練習 自我提高。指標 分類演算法常見的評估指標如下 1 混淆矩陣 confuse matrix 2 準確率 accuracy 3 精確率 precision 4 召回率 recall 5 f1 score 6 p...

Task02 零基礎入門資料探勘 資料分析

train data pd.read csv path used car train 20200313.csv sep test data pd.read csv path used car testa 20200313.csv sep display train data.shape displa...