数据缺失，悬赏，求高手指点

viking1111

2870

收藏 2009-08-26

悬赏 2 个论坛币已解决

我在做中小企业银行信用风险评价，用的是偏最小二乘和Logistic结合的方法。一共178个样本点，分为6个行业，这么算来，每组样本比较少。可我有22个自变量，每个自变量都是两个原始财务指标的比值。原始指标我下载后，个别是报错的，可能是中小企业本身指标就不全的缘故吧。这么算来，有4、5个自变量都有5—9个的数据缺失，如果把相应样本点都去了，就一下子少了三分之一，请各位指点，用EViews，spss怎么处理PLS和Logistic方法下的数据缺失。要详细操作步骤，不胜感谢！

最佳答案

ycl0536 查看完整内容

缺省值处理，先用回归或者神经元网络方法，把那些缺失的值给预测出来，预测的值可以当做缺省值来处理！你可以把具体的数据发给我看看吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

ycl0536

2009-8-26 11:18:55

缺省值处理，先用回归或者神经元网络方法，把那些缺失的值给预测出来，预测的值可以当做缺省值来处理！你可以把具体的数据发给我看看吗？ycl-0536@163.com

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

420948492

2009-8-26 15:14:19

楼上提出的是一种数据缺失比较高级的办法，呵呵，
其实我有几方面的建议：
一，可以考虑调换方法，有的方法可以允许缺失值的存在，或者对缺失值不敏感，这样就不用处理缺失值，因为，毕竟从任何方面讲，你都是在模拟数据，都是在填充数据是吧？准确性让人怀疑，也给文章留下话柄。
二是，其实缺失值的处理有很多思路，这个是我上传的缺失值处理的材料http://www.pinggu.org/bbs/thread-461813-1-1.html
三对于你的数值，都是财务数据，是不是可以考虑用相似的行业相似的产值的企业的均值来代替，当然了具体要看什么数据，呵呵
欢迎讨论，420948492

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ycl0536

2009-8-26 15:47:41

还有就是我觉得这22个指标也太多了，楼主可以用因子分析或者聚类的方法可以将指标确定在4-5个，因为很多的财务指标的相关性都是比较大的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2009-8-26 20:57:16

3# 420948492

谢谢您，很有收获。
第三种方法取行业均值可能比较困难。
对您的第一种方法——可以考虑调换方法，我觉得操作性比较好。因为，我的模型已经做出了，效果比较好，对于错误数据——原始数据为0.0001的数据（实际绝不可能，例如：主营业务利润），我也按0.0001计算了，可能因为近30个样本点的22维指标中各只有0或1指标不对的原因吧。
但有一点不太懂，您说：“毕竟从任何方面讲，你都是在模拟数据，都是在填充数据是吧？准确性让人怀疑，也给文章留下话柄。”什么是填充数据？
第二个方法，我看PPT了。贝叶斯的两种方法比较合适，但具体在excel上修改似乎要手工？因为错误数据分散，没有集中于某个样本点或某个指标，这样，我可能得随机手工操作上千次，工作量比较大，您能指点一下操作方法么，谢谢^_^

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2009-8-26 20:57:54

2# ycl0536

请查收

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群