全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2764 5
2009-08-26
悬赏 2 个论坛币 已解决
我在做中小企业银行信用风险评价,用的是偏最小二乘和Logistic结合的方法。一共178个样本点,分为6个行业,这么算来,每组样本比较少。可我有22个自变量,每个自变量都是两个原始财务指标的比值。原始指标我下载后,个别是报错的,可能是中小企业本身指标就不全的缘故吧。这么算来,有4、5个自变量都有5—9个的数据缺失 ,如果把相应样本点都去了,就一下子少了三分之一,请各位指点,用EViews,spss怎么处理PLS和Logistic方法下的数据缺失。要详细操作步骤,不胜感谢!

最佳答案

ycl0536 查看完整内容

缺省值处理,先用回归或者神经元网络方法,把那些缺失的值给预测出来,预测的值可以当做缺省值来处理!你可以把具体的数据发给我看看吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-8-26 11:18:55
缺省值处理,先用回归或者神经元网络方法,把那些缺失的值给预测出来,预测的值可以当做缺省值来处理!你可以把具体的数据发给我看看吗?ycl-0536@163.com
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 15:14:19
楼上提出的是一种数据缺失比较高级的办法,呵呵,
其实我有几方面的建议:
一,可以考虑调换方法,有的方法可以允许缺失值的存在,或者对缺失值不敏感,这样就不用处理缺失值,因为,毕竟从任何方面讲,你都是在模拟数据,都是在填充数据是吧?准确性让人怀疑,也给文章留下话柄。
二是,其实缺失值的处理有很多思路,这个是我上传的缺失值处理的材料http://www.pinggu.org/bbs/thread-461813-1-1.html
三对于你的数值,都是财务数据,是不是可以考虑用相似的行业相似的产值的企业的均值来代替,当然了具体要看什么数据,呵呵
欢迎讨论,420948492
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 15:47:41
还有就是我觉得这22个指标也太多了,楼主可以用因子分析或者聚类的方法可以将指标确定在4-5个,因为很多的财务指标的相关性都是比较大的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 20:57:16
3# 420948492

谢谢您,很有收获。
第三种方法取行业均值可能比较困难。
对您的第一种方法——可以考虑调换方法,我觉得操作性比较好。因为,我的模型已经做出了,效果比较好,对于错误数据——原始数据为0.0001的数据(实际绝不可能,例如:主营业务利润),我也按0.0001计算了,可能因为近30个样本点的22维指标中各只有0或1指标不对的原因吧。
但有一点不太懂,您说:“毕竟从任何方面讲,你都是在模拟数据,都是在填充数据是吧?准确性让人怀疑,也给文章留下话柄。”什么是填充数据?
第二个方法,我看PPT了。贝叶斯的两种方法比较合适,但具体在excel上修改似乎要手工?因为错误数据分散,没有集中于某个样本点或某个指标,这样,我可能得随机手工操作上千次,工作量比较大,您能指点一下操作方法么,谢谢^_^
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 20:57:54
2# ycl0536

请查收
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群