資料探勘中的預處理以電信客戶流失問題為例

資料預處理

step1：資料取樣：由於在建立客戶流失模型過程中，流失客戶往往佔所有客戶人群的比例很小，這時，最好的辦法是保留真個流失客戶人群，而對非流失客戶人群進行取樣，使得客戶流失與非客戶流失人群在1:1~1:2

step2：資料探索(缺失值和異常值)

step3

：建立缺失變數指示器；對於每乙個缺失變數，值缺失時，令值為

1，沒有缺失時，令其為

0，即建立了對應的缺失變數

step4：對樣本資料分為訓練集和測試集

strata ins 可以保證在訓練集和測試集裡面流失客戶數量和非流失客戶數量的比例基本相當

其實想想可以分成訓練集、校正集和測試集。訓練集用於建立模型，校正集用於調整引數，以防過擬合等問題，測試集用於判斷模型好壞。

step5：對訓練資料集填缺，輸出資料train1(用均值進行填充)

step6：屬性變數壓縮(occupation職業)：

首先我們得到在屬性變數每乙個水平上發生的比例情況或者概率情況，

然後可以根據概率，對比較相近的一些進行聚類

但是卡方值愈來愈小(總的卡方值是乙個常數，每分一次，卡方值減少一些)，直到最後分為一類，卡方值變為0；所以需要在自由度和卡方值之間尋求乙個均衡

step7：連續變數壓縮(消除共線性)

step8：變數篩選：根絕spearman和hoeffding相關係數篩選出**力很弱的一些變數

step9：根據logistic回歸的定義我們可以知道，logit(p)和自變數之間是呈現乙個線性關係的，所以還需要對數值型自變數做一些處理(具體操作就是：把變數取值分成100個小組，求每一組的平均值mean_x，看看mean_x是否和logit(p)之間是否是線性關係，不是線性關係時，直接替換為1,2,3,4…100)

資料探勘中的預處理以電信客戶流失問題為例

3 6 11 資料探勘中的資料預處理

資料探勘過程中資料預處理

資料探勘過程中資料預處理

資料探勘中的預處理 以電信客戶流失問題為例

3 6 11 資料探勘中的資料預處理

資料探勘過程中 資料預處理

資料探勘過程中 資料預處理

相關推薦

資料探勘中的預處理以電信客戶流失問題為例

資料探勘過程中資料預處理

資料探勘過程中資料預處理