全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4407 9
2015-06-18
各位大牛好,
我有一个疑问,我现在手头有2万条记录(假如这些记录是表示人已死亡),用这些数据来预测700万数据(人暂未死亡)的结果,想问可行吗?

在EM中选择2万死亡数据+6万未死亡数据组成样本集,去预测剩下的694万人多少会发生死亡。。我想问,这种数据两之间的悬殊差距会不会影响预测结果?我预测的未死亡到未死亡的测试集正确率可以达到99%,但是预测的死亡到死亡的测试集正确率才到达76%。

当我选择2万死亡数据+2万未死亡数据进行预测时,预测的死亡到死亡的测试集正确率会提高,但是这样的一个样本集数据组成明显与事实不符。

请教这样做出的预测是不是可信,还有什么更好的预测办法,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-6-18 08:38:43
统计上讲,只要这些数据都来自同一个总体,量大量小都不是问题(假定模型和参数估计足够准确)。
实际上说,很难说你的数据是不是来自同一个总体。你得说清楚你究竟在研究什么,都有哪些自变量,才能讨论。不然没啥可说的。举个极端的例子:如果你手头的两万条记录都是医院病死的。你用它预测700万不知道健康不健康的人会不会死。。。

另:我不用EM预测也知道你那700万人里有700万人都会死的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-18 13:14:29
夏目贵志 发表于 2015-6-18 08:38
统计上讲,只要这些数据都来自同一个总体,量大量小都不是问题(假定模型和参数估计足够准确)。
实际上说 ...
哈哈,其实不是预测死亡的。我的数据都来自同一个总体,是通过分析,拿出来一部分,预测另一部分。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-18 20:49:07
小台芒,好吃 发表于 2015-6-18 13:14
哈哈,其实不是预测死亡的。我的数据都来自同一个总体,是通过分析,拿出来一部分,预测另一部分。
我知道。我的意思就是说你要是不说明具体是做什么,有些判断就很难做。因为我不能替你做各种假设。你是做default的吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-19 08:24:40
我在做客户流失预警
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-19 08:25:30
夏目贵志 发表于 2015-6-18 20:49
我知道。我的意思就是说你要是不说明具体是做什么,有些判断就很难做。因为我不能替你做各种假设。你是做 ...
我在做客户流失预警,用流失客户去预测未流失客户未来一段时间内流失的情况
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群