檢視含缺失值列數
print
(f'there are columns in train dataset with missing values.'
)
缺失率視覺化
missing = data_train.isnull().
sum()/
len(data_train)
missing = missing[missing >0]
missing.sort_values(inplace=
true
)missing.plot.bar(
)
數值型變數分析:劃分數值型變數中的連續變數和離散型變數
#過濾數值型類別特徵
defget_numerical_serial_fea
(data,feas)
: numerical_serial_fea =
numerical_noserial_fea =
for fea in feas:
temp = data[fea]
.nunique(
)if temp <=10:
continue
return numerical_serial_fea,numerical_noserial_fea
numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(data_train,numerical_fea)
數值類別型變數統計
列名.value_counts(
)#離散型變數
數值連續型變數統計
#每個數字特徵得分布視覺化
f = pd.melt(data_train, value_vars=numerical_serial_fea)
g = sns.facetgrid(f, col=
"variable"
, col_wrap=
2, sharex=
false
, sharey=
false
)g = g.
map(sns.distplot,
"value"
)
金融風控 探索性資料分析
乾貨放前面 常常存在資料維度過大而用data.head 時候會有列中存在省略號的情況 此次金融風控可能無法直接看到n1到n14的所有資訊,可用下面解決 1最大展示60列 pd.set option display.max columns 60 最大展示60行 pd.set option displa...
金融風控 Task01
題目理解 通過這道賽題來引導大家走進金融風控資料競賽的世界,主要針對於於競賽新人進行自我練習 自我提高。指標 分類演算法常見的評估指標如下 1 混淆矩陣 confuse matrix 2 準確率 accuracy 3 精確率 precision 4 召回率 recall 5 f1 score 6 p...
Task02 零基礎入門資料探勘 資料分析
train data pd.read csv path used car train 20200313.csv sep test data pd.read csv path used car testa 20200313.csv sep display train data.shape displa...