全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 悬赏大厅
7172 7
2014-08-05
悬赏 10 个论坛币 未解决

大家好,在做一个数据挖掘的研究,有3个月数据:8月份(从8.7开始),9月份(一整个月),10月份(从10.1-10.25)。
采用了两种分区方法:1:三个月数据作为整体,从中随机抽取60%作为训练集,剩下作为测试集。
2:8月份和9月份作为训练集,10月份作为测试集。

上述两组分区方法的训练集准确率都是97%左右,但是测试集结果相差很大。采取第一种办法,测试集准确率有92%。第二种分区方法只有77%左右。

以上为决策树C5.0算法,也尝试用了神经网络,贝叶斯网络,SVM,基本都是第二种分区方法的测试集准确率下降得很严重,想请教一下大家这主要是什么原因造成?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-5 21:32:03
季节效应影响,第一个方法更科学
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-5 21:39:25
guo.bailing 发表于 2014-8-5 21:32
季节效应影响,第一个方法更科学
第一种方法从挖掘的角度我觉得缺失可以充分挖点。但是在实际的应用当中,一般我们会是把历史数据作为训练集,新的数据验证使用,所以我其实更希望是使用第二种方法。
我也有考虑过季节效应的因素,但是这个研究是针对普通生产企业的工业用水排污研究,三个月份是连在一起的,我自己会比较怀疑这个不同月份的行为模式的差距会这么大吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-5 21:39:27
这个结果很正常啊!第一种方法其实就是做了个同源数据再拟合工作,所以准确率高,基于整体的随机抽样数据也可以看成已经包含了3个月的信息,你拿剩下40%的数据去检验肯定准确率极高。不过检验模型一般都不会这么做没有意义。第二种方法是正解,所以预测准确率也低。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-5 21:41:15
602dxz 发表于 2014-8-5 21:39
这个结果很正常啊!第一种方法其实就是做了个同源数据再拟合工作,所以准确率高,基于整体的随机抽样数据也 ...
按照你的说法,就是认为不同月份的数据间他们的行为模式是不一致的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-5 21:45:39
翼羽路 发表于 2014-8-5 21:41
按照你的说法,就是认为不同月份的数据间他们的行为模式是不一致的?
时间序列数据的话,本来就是动态的,无时无刻都在变化,你基于历史数据搞出来的模型不可能都捕捉住。你第一种方法为什么准确率这么高就是因为你训练模型与检验都是用的一批同源数据,所以模型对于数据的捕捉(拟合)才这么好!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群