-
-
Notifications
You must be signed in to change notification settings - Fork 301
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问包中具体用的分箱算法是哪一种 #97
Comments
卡方和决策树都有,可以通过method参数设置 |
请问下,最优分箱是一种具体的分箱算法吗,还是卡方 决策树都是叫做最优分箱呀? |
是的,一种单独的分箱方法。你参考一下shichen.name/scorecard右上角的slides |
根据给定的条件如果分不出来,转woe之后根据变量特征很容易就筛掉了 |
我一开始觉得可能是卡方分箱对这个特征分不出箱,这个特征转woe就变成同一值,直接被IV筛选过滤掉了,也不用再去费劲的手动分箱。但是换成别的方法比如树或者等频这个特征会分出来,后期会不会全被IV值筛选过滤掉就不得而知了。我也问过组里其他做评分卡的人,她们说很少遇到过这种分不出箱的特征。所以现在我这就很疑惑 |
类决策树和卡方合并分箱用的比较多,等频和等高比较少也有限制。选定一个方法之后,和确定参数之后,就可以不用纠结能不能分出来。当然你的建模样本和特征数据是基础。卡方和树随便选一个就好,我常用树分箱。 |
如果选择一个分箱方法,特征无法分箱,我可以默认这个特征是可以被废弃的吧? |
当然,前提是对选定的方法和参数没有问题 |
还有个问题想请教下,oot数据集得到的ks照比训练集ks下降10%左右或者多一些,但是oot三四个月的数据,每个月的ks相差不多,模型可不可以使用呢?因为网上一些资料都是讲10%以上模型都下降了,不能继续使用,我用了lgb和评分卡模型对还款的合同进行预测,lgb和评分卡都有oot数据ks下降10个点的现象,但oot之间ks相差很小,而且lgb的psi更稳定。但是一个问题,lgb绝大部分数据的得分都很低,甚至70%都集中在同一低分数上,评分卡的分数分布比lgb好很多。 |
是不是好坏客户定义有问题 |
样本数据整体的正样本才千分之5,负样本下采样以后正样本比例5%+,主要是高账龄合同还款表现本身就很差 |
表现期多长时间 |
训练数据的后三个月,每个月的数据做一次验证 |
您好,我了解到目前的监督分箱算法包括最优分箱 卡方分箱 决策树分箱等,请问这个包中的分箱算法是用的哪一种
The text was updated successfully, but these errors were encountered: