資料探勘中的預處理 以電信客戶流失問題為例

2021-07-11 23:10:09 字數 1020 閱讀 4197

資料預處理

step1:資料取樣:由於在建立客戶流失模型過程中,流失客戶往往佔所有客戶人群的比例很小,這時,最好的辦法是保留真個流失客戶人群,而對非流失客戶人群進行取樣,使得客戶流失與非客戶流失人群在1:1~1:2

step2:資料探索(缺失值和異常值)

step3

:建立缺失變數指示器;對於每乙個缺失變數,值缺失時,令值為

1,沒有缺失時,令其為

0,即建立了對應的缺失變數

step4:對樣本資料分為訓練集和測試集

strata ins 可以保證在訓練集和測試集裡面流失客戶數量和非流失客戶數量的比例基本相當

其實想想可以分成訓練集、校正集和測試集。訓練集用於建立模型,校正集用於調整引數,以防過擬合等問題,測試集用於判斷模型好壞。

step5:對訓練資料集填缺,輸出資料train1(用均值進行填充)

step6:屬性變數壓縮(occupation職業)

首先我們得到在屬性變數每乙個水平上發生的比例情況或者概率情況,

然後可以根據概率,對比較相近的一些進行聚類

但是卡方值愈來愈小(總的卡方值是乙個常數,每分一次,卡方值減少一些),直到最後分為一類,卡方值變為0;所以需要在自由度和卡方值之間尋求乙個均衡

step7:連續變數壓縮(消除共線性)

step8:變數篩選:根絕spearman和hoeffding相關係數篩選出**力很弱的一些變數

step9:根據logistic回歸的定義我們可以知道,logit(p)和自變數之間是呈現乙個線性關係的,所以還需要對數值型自變數做一些處理(具體操作就是:把變數取值分成100個小組,求每一組的平均值mean_x,看看mean_x是否和logit(p)之間是否是線性關係,不是線性關係時,直接替換為1,2,3,4…100)

3 6 11 資料探勘中的資料預處理

data mining concepts and techniques 是經典的資料探勘入門書籍,內容囊括資料探勘的基本概念 資料的預處理 資料的儲存 資料中模式的挖掘 分類 聚類 異常檢測等方面,作者是著名的韓家煒教授。資料的預處理在真實世界資料中是非常關鍵的一步,它既是不同資料探勘應用的共同起點...

資料探勘過程中 資料預處理

原文 在 資料分析 之前,我們通常需要先將資料標準化 normalization 利用標準化後的資料進行 資料分析 資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合...

資料探勘過程中 資料預處理

原文 在資料分析 之前,我們通常需要先將資料標準化 normalization 利用標準化後的資料進行資料分析 資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果...