全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1420 2
2019-09-30
基于工作的需要和个人兴趣,近日仔细研究了《IBMSPSS 数据分析与挖掘实战案例精粹》第18章‘信用评分方法’,对其中的部分公式产生疑问,基于个人学识有限及学术严谨性,现在此咨询,希望能得到专家的确认。
如:
(1)、第412页的 WOE= ln(好客户占比/坏客户占比)*100 公式,是否应该将乘以100去掉?我查阅了其它资料,关于WOE的公式都只写到 WOE = ln(好客户占比/坏客户占比),包括R语言专门用于最优分箱的Smbinning包的计算结果也没有乘以100,如果只是结果呈现那倒没什么,问题是这个woe会影响到最终评分值的计算。
(2)、417页的 Score + pdo =...右边是否多了一项Factor,从后面的计算结果来看,应该是
Score + pdo = Offset + Factor *  ln(2* odds)
(3)、418页的 Score = ∑ (Offset/n -Factor * ( a/n βj* woe)) 是否少了一个+号,β下标是否应该是i.正确的式子是否为:Score = ∑ (Offset/n -Factor * ( a/n+ βi* woe))
另外,书中的样本是3000条,1、0类各占50%,作者为了使数据类别比例与实际接近,采用了过简单的采样方法,将0类的每条记录重复30次,最终得到0类为45000条,类别占比0:1为97%:3%,之后再这些数据经过一系列的处理转换,最终用被用于构建Logistic模型,这样不是相当于在数据类别极不平衡的情况下建模,得到的模型特征系数还有意义?(如果拿模型去预测,岂不是都预测为0类)书中最终拿这些系数去计算信用评分,这样做可以?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-10-11 17:45:24
首先你没有把书贴出来,其次woe是可以不用*100,另外简单重复抽样增加好样本比例是为了模拟实际情况,但是这种简单重复抽样跟实际情况肯定会有比较大的差异,至于你说的会不会都预测为0,这个取决于好坏样本的区分度
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-10-13 10:56:15
阿扁V5 发表于 2019-10-11 17:45
首先你没有把书贴出来,其次woe是可以不用*100,另外简单重复抽样增加好样本比例是为了模拟实际情况,但是这 ...
好的,谢谢!相关书籍网上有免费的可以下载!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群