R語言分箱

2021-10-06 08:21:22 字數 650 閱讀 6187

#smbinning分箱  兩種方式確定切分點 ;1.根據smbinning自帶的ctree演算法進行**,找出最優分割點,然後計算woe和iv

####2.如下計算方式,自己設定切分點,下面是基於資料分布的分位數進行切分

per<-as.vector(quantile(traindata$m03,probs=seq(0,1,0.2),na.rm=t))

breaks<-per[2:(length(per)-1)]

result_m03=smbinning.custom(df=traindata,y='y',x="m03",cuts=breaks)

result_m03$ivtable

########################## ctree iv

#####

library(smbinning)

br_shenqing_train_d=br_shenqing_train

iv_table=data.frame()

smbin_feature_table=data.frame()

for(i in 1:length(numer_names))

} }iv_table

smbin_feature_table

Python變數分箱 woe值單調分箱

最近上傳了乙個變數分箱的方法到pypi,這個包主要有以下說明 缺失值單獨一箱,不論缺失的數量多少 生成的分箱woe值是單調的,後續有時間會迭代u型分箱的版本 會有分箱最小樣本數佔比,類似決策樹的最小葉節點佔比 分箱成功的變數才會保留,有可能失敗的情況是找不出同時滿足上述2和3的分箱 增加了多程序,提...

python決策樹分箱 快速分箱方法

python 分箱的一種方法 2018.08.02 r語言中有smbining可以進行最優分箱,python中分箱如果既要考慮箱體個數,分箱後資訊量大小,也要考慮單調性等其他因素。這裡給出一種簡單的通過iv值來選擇如果分箱的方法。下面是按照分位數來分的,還可以按照卡房分箱,決策樹分箱等。參照toad...

r語言electricity資料集 R語言 資料集

第二章 建立資料集 1.r語言的資料型別 數值型 字元型 邏輯型 複數型 虛數 和原生型 位元組 2.資料結構 a.向量 儲存數值型 字元型和邏輯型資料的一維陣列 a c 1,2,3,4,5 建立 組合功能的函式c a 1 1 2 3 4 5 a c 1,4 訪問 方括號 向量中指定的元素 1 1 ...