基礎特徵工程經驗

基礎準備

一、風控建模分類

授信類建模

反欺詐建模

二、反欺詐建模和授信建模的不同

什麼是欺詐？什麼是反欺詐？這一切都是由業務場景所決定。

反欺詐底層是什麼？不僅要與相類似的資料比較，還需要與自己相比較。也即是說反欺詐的核心是在尋找與欺詐相似的同時，尋找「正常」中的異常。

怎麼做？有監督，無監督，策略。

三、無監督

圖演算法模型（社交網路演算法、知識圖譜等）

圖資料庫（審核策略使用）

四、有監督

變數選擇

一、圖資料庫

唯一且有識別度的變數，如身份證，聯絡人+聯絡人****+地區組合等。

特定時間內唯一且可識別的變數，如手機號，通訊位址等。

客戶id等內部專用的唯一可識別變數不可用。

模糊匹配，關聯，如gps定位，ip位址等。

詞彙關聯，如工作單位等。

二、有監督學習的變數選擇

由因變數對映得到的變數

內部環境才存在的變數，如客戶id

建模時存在，未來確定不會存在的變數（業務）

不穩定的變數，絕大部分為空值，且bad與good分布差異不大的變數（特徵工程）

過去存在，將來存在，但截止建模為止大部分客戶資料中不存在的變數

不穩定的變數，絕大部分為空值，且bad與good分布差異很大的變數（特徵工程）

在確定現時模型表現的基礎上，再嘗試加入。

對於未來**影響很大的變數。

什麼是異常？

人為製造的異常不是異常。

業務可以解釋的異常值並不異常。

異常：離群值，空值，與其他值顯然不同的值，業務不可解釋的值

替代歸一化、標準化、log transfer等

異常極值做dummy transfer

特徵工程（1）特徵工程是什麼？

特徵是資料中抽取出來的對結果有用的資訊，可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料，使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取特徵構建特徵選擇等模組。特徵工程的目的是篩選出更好的特徵，獲取更好的訓練資料。因為好的特徵具有更強的靈活性，可以用簡單的模型...

特徵工程特徵交叉交叉特徵特徵組合

關於特徵交叉的作用以及原理，我這裡不進行詳細描述，因為大佬們已經說得很清楚了，這裡就附上幾個連線特徵組合特徵交叉 feature crosses 結合sklearn進行特徵工程對於特徵離散化，特徵交叉，連續特徵離散化非常經典的解釋下面說怎樣製作和交叉特徵多項式生成函式 sklearn.pr...

特徵工程之特徵選擇

在前一篇文章中我介紹了一些資料預處理的方法，原始資料在經過預處理之後可以被演算法處理了，但是實際中可能有一些特徵是沒有必要的，比如在中國採集的一些資料，那麼國籍就都是中國，其實也就沒有意義了，反映在統計量上就是方差過小，也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小，也就是...

基礎特徵工程經驗

特徵工程（1） 特徵工程是什麼？

特徵工程 特徵交叉 交叉特徵 特徵組合

特徵工程之特徵選擇

相關推薦

特徵工程（1）特徵工程是什麼？

特徵工程特徵交叉交叉特徵特徵組合