資料探勘實戰之金融風控第一課 賽題理解

2021-10-09 11:56:05 字數 402 閱讀 7000

第二步:分析賽題資料:

共有47個特徵

id 唯一標識,沒有用

數值特徵(12個):loanamnt貸款金額、interestrate貸款利率、installment分期付款金額、employmenttitle就業職稱(行業相關?)、annualincome年收入、dti債務收入比、openacc借款人信用檔案中未結信用額度的數量、pubrec貶損公共記錄的數量、revolbal信貸周轉餘額合計、revolutil迴圈額度利用率、totalacc借款人信用檔案中當前的信用額度總數、title借款人提供的貸款名稱

匿名特徵n0-n14(15個)

第三步:評價指標用auc

auc(area under curve) auc(area under curve)被定義為 roc曲線 下與座標軸圍成的面積。

資料探勘第一課(學習規劃)

1 資料探勘能夠解決什麼樣的問題?資料探勘可以實現分類,聚類,關聯和 從而將商業運營問題轉化為大資料探勘問題 2 常見的分類方法 決策樹 貝葉斯 knn 支援向量機 神經網路和邏輯回歸等 3 常見的聚類演算法 例如劃分聚類 層次聚類 密度聚類 網格聚類 基於模型聚類等 4 常見的關聯分析演算法 ap...

資料探勘實戰之金融風控第四課 建模與調參

一 常用演算法及優缺點介紹 邏輯回歸優點 簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響 缺點 不能用logistic回歸去解決非線性問題,因為logistic的決策面是線性的 決策樹優點 簡單直觀,生成的決策樹可以視覺化展示,資料不需要預處理,不需要歸一化,不需要...

資料探勘實戰之金融風控第二課 探索性資料分析

1 讀取檔案 data pd.read csv data.shape檢視檔案的行和列 data train.columns檢視資料列名data train.info 檢視每列的基本資訊,資料型別data train.describe 檢視類別的統計特徵 data train.isnull sum l...