基礎特徵工程經驗

2022-09-07 18:00:18 字數 1041 閱讀 2898

基礎準備

一、風控建模分類

授信類建模

反欺詐建模

二、反欺詐建模和授信建模的不同

什麼是欺詐?什麼是反欺詐?這一切都是由業務場景所決定。

反欺詐底層是什麼?不僅要與相類似的資料比較,還需要與自己相比較。也即是說反欺詐的核心是在尋找與欺詐相似的同時,尋找「正常」中的異常。

怎麼做?有監督,無監督,策略。

三、無監督

圖演算法模型(社交網路演算法、知識圖譜等)

圖資料庫(審核策略使用)

四、有監督

變數選擇

一、圖資料庫

唯一且有識別度的變數,如身份證,聯絡人+聯絡人****+地區組合等。

特定時間內唯一且可識別的變數,如手機號,通訊位址等。

客戶id等內部專用的唯一可識別變數不可用。

模糊匹配,關聯,如gps定位,ip位址等。

詞彙關聯,如工作單位等。

二、有監督學習的變數選擇

由因變數對映得到的變數

內部環境才存在的變數,如客戶id

建模時存在,未來確定不會存在的變數(業務)

不穩定的變數,絕大部分為空值,且bad與good分布差異不大的變數(特徵工程)

過去存在,將來存在,但截止建模為止大部分客戶資料中不存在的變數

不穩定的變數,絕大部分為空值,且bad與good分布差異很大的變數(特徵工程)

在確定現時模型表現的基礎上,再嘗試加入。

對於未來**影響很大的變數。

什麼是異常?

人為製造的異常不是異常。

業務可以解釋的異常值並不異常。

異常:離群值,空值,與其他值顯然不同的值,業務不可解釋的值

替代歸一化、標準化、log transfer等

異常極值做dummy transfer

特徵工程(1) 特徵工程是什麼?

特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...

特徵工程 特徵交叉 交叉特徵 特徵組合

關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...

特徵工程之特徵選擇

在前一篇文章中我介紹了一些資料預處理的方法,原始資料在經過預處理之後可以被演算法處理了,但是實際中可能有一些特徵是沒有必要的,比如在中國採集的一些資料,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差過小,也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小,也就是...