銀行客戶流失預警（三） GBDT的應用

要介紹gbdt之前，先介紹乙個基礎成員，決策樹。

決策樹是最簡單的機器學習演算法，它易於實現，可解釋性強，完全符合人類的直觀思維，有著廣泛的應用。其可作為分類演算法，也可用於回歸模型。

從名字可知，這是一棵樹，它是基於特徵構建一顆層層推理的樹，主要由根節點，內部結構和葉子節點組成。

 根節點：包含樣本的全集

 內部節點點：對應特徵屬性測試

 葉節點：代表決策的結果

實際**時，在內部節點使用某一屬性值判斷，根據判斷結果決定進入哪乙個分支，直到達到葉子節點，得到分類結果。

1. 特徵選擇

特徵選擇決定了首先使用哪些特徵做判斷，整個決策過程使用哪些特徵做判斷。

在訓練資料集中，每個樣本的屬性可能有很多個，不同屬性的作用有大有小。因而特徵選擇的作用就是篩選出跟分類結果相關性較高的特徵，也就是分類能力較強的特徵。

特徵選擇常用的基準是：資訊增益

2. 決策樹生成

選擇好特徵後，就從根節點出發，對節點計算所有特徵的資訊增益，選擇資訊增益最大的特徵作為節點特徵，根據該特徵的不同取值建立子節點；對每個子節點使用相同的方式生成新的子節點，直到資訊增益很小或者沒有特徵可以選擇為止。

3. 決策樹減枝

防止決策樹過擬合，主動剪掉一些枝葉降低過擬合風險

最早提出的演算法，利用資訊增益確定特徵選擇

2. c4.5

由於id3演算法的結果對可取值數目較多的特徵有所偏好，類似「編號」的特徵其資訊增益接近於 1，因此在此基礎上進行改進，不直接使用資訊增益，使用「資訊增益比」來確定特徵選擇，就是c4.5

3. cart

這種演算法即可以用於分類，也可以用於回歸問題。cart 演算法使用了基尼係數取代了資訊熵模型。

 決策樹易於理解和解釋，可以視覺化分析，容易提取出規則；

 可以同時處理標稱型和數值型資料；

 比較適合處理有缺失屬性的樣本；

 能夠處理不相關的特徵；

 測試資料集時，執行速度比較快；

 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果。

 容易發生過擬合（隨機森林可以很大程度上減少過擬合）；

 容易忽略資料集中屬性的相互關聯；

 對於那些各類別樣本數量不一致的資料，在決策樹中，進行屬性劃分時，不同的判定準則會帶來不同的屬性選擇傾向；資訊增益準則對可取數目較多的屬性有所偏好（典型代表id3演算法），而增益率準則（cart）則對可取數目較少的屬性有所偏好，但cart進行屬性劃分時候不再簡單地直接利用增益率盡心劃分，而是採用一種啟發式規則）（只要是使用了資訊增益，都有這個缺點，如rf）。

 id3演算法計算資訊增益時結果偏向數值比較多的特徵。

決策樹只是一棵樹，一棵樹的決策結果總是容易產生偏差，於是在這個基礎上衍生出將多棵樹組合在一起的演算法，根據組合方式的不同，分為三種整合演算法：通過自助取樣的方法生成眾多並行的分類器，通過『少數服從多數『的原則確定最終結果

從同一樣本、同一指標集裡抽樣，每次抽樣都生成一棵簡單樹，可以並行建立，典型演算法：隨機森林：

隨機森林基於bagging思想，解決決策樹泛化的問題，決策樹是一棵樹，只有乙個決策權，隨機森林是多棵樹，每棵樹都有乙個決策權，這樣把所有樹的結果綜合起來，這樣的分類能力，自然比單棵樹的結果好。所以隨機森林是基於這樣的思想去分類的。隨機森林的隨機主要體現在兩個方面，乙個是隨機選取樣本，乙個是隨機選取特徵。隨機森林是根據特徵構造多棵決策樹，那每棵樹是怎麼構造的呢？它從訓練樣本中隨機選取固定數量的樣本集，然後隨機選取固定數量的特徵，來構造決策樹，相當於樣本集和特徵集都是總樣本和總特徵中的子集。而且這個隨機選取是有放回地抽取過程。這樣每個決策樹都有乙個分類結果，根據少數服從多數的原則，得到最後的結果。這就是隨機森林演算法的核心內容。

將弱學習器提公升為強學習器的整合方法來提高**精度。模型建立有先後順序，後乙個模型是改進對前乙個模型分類錯誤的結果賦予更大的權重，典型演算法：gbdt，adaboos，xgboost。

舉乙個非常簡單的例子，比如我今年30歲了，但計算機或者模型提公升樹並不知道我今年多少歲，那提公升樹咋辦呢？

• 它會在第乙個弱分類器（或第一棵樹中）隨便用乙個年齡比如20歲來擬合，然後發現誤差有10歲（30-20=10歲）；

• 接下來在第二棵樹中，用6歲去擬合剩下的損失，發現差距還有4歲(30-20-6=4歲)；

• 接著在第三棵樹中用3歲擬合剩下的差距，發現差距只有1歲了（30-20-6-3=1歲）；

• 最後在第四課樹中用1歲擬合剩下的殘差，完美（30-20-6-3-1=0歲）。

• 最終，將每次擬合的歲數加起來便是模型輸出的結果，也就是四棵樹的結論加起來的結果（20+6+3+1=30歲），就是真實年齡30歲

這就是提公升樹演算法過程，每一棵樹都去擬合前n棵樹綜合結果和真實值之間的誤差（即殘差），gbdt也是基於這樣乙個迭代的思想，但是gbdt演算法是提公升樹的一種改進演算法，每棵樹擬合的是前一棵樹的損失函式的負梯度（用負梯度去近似殘差），這也就要求每棵樹的損失函式，只要一階可導就行。

gbdt模型引數

1.gbdt框架的引數

2.弱分類樹的引數

分類器效能介紹：

分類器給出針對每個例項為正類的概率，比如設定乙個閾值如0.6，概率大於等於0.6，的為正類，小於0.6的為負類。對應的就可以算出一組(fpr,tpr)。每調整乙個閾值，都能得到一組（fpr，tpr）。

當閾值逐漸減小時，越來越多的樣本被分為正樣本，真陽率trp增加，但同時也會有很多負樣本被**錯誤為正樣本，所以偽陽率也會增加。因此閾值最小是，對應座標(1,1)，閾值最大時，對應座標為(0,0）。

將所有的（tpr，fpr）在座標軸上的點連成線即可得到roc曲線，曲線和橫座標圍成的面積稱之為auc面積（area under curve）。曲線下的面積越大，分類效果越好。

銀行客戶流失預警（三） GBDT的應用

銀行客戶經理系統

聚類分析（銀行客戶畫像）

資料探勘的目的是什麼？看這個銀行客戶流失案例就知道

銀行客戶流失預警（三） GBDT的應用

銀行客戶經理系統

聚類分析（銀行客戶畫像）

資料探勘的目的是什麼？看這個銀行客戶流失案例就知道

相關推薦