全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
5685 13
2018-11-26
大家好:
          有一个问题,想和大家一起讨论一下:重复样本对模型的预测有何影响?重复数据会影响数据的分布,那么对神经网络类的预测以及决策树类的预测分别存在什么样的影响?欢迎大家讨论!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-11-27 08:52:36
有,影响还是很大的。比如回归中损失函数为 loss=sum[(y_true-y_pred)^2]。重复样本同样会对loss有影响,会使回归向重复样本方向拉。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-28 10:03:40
雾锁山城 发表于 2018-11-27 08:52
有,影响还是很大的。比如回归中损失函数为 loss=sum[(y_true-y_pred)^2]。重复样本同样会对loss有影响,会 ...
果然,通过我最近做的一个模型,原始数据100万(包括重复),去重之后23万,先后建立两个模型(采用GBDT算法建立的),在两个预测模型预测过程中发现,重复数据预测模型预测的结果比较平稳,偏向重复数据的分布;而去重之后的模型预测的结果起伏较大。那到底哪种情况更加反映实际情况呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-28 10:55:36
    拟合统计学习模型时,本是要学习一个概率模型P(X,Y) 。但是,P(X,Y)是不知的,我们只有一个由N个观察组成数据样本(xi,yi) (i=1,2,...N),假设这个数据样本是从P(X,Y)是随机抽取的,同时也假设未来测试样本也是从P(X,Y)中随机抽取的。这是统计学习(或机器学习的基本假设)。。
    既然从一个概率模型P(X,Y)中随机抽取, 这个样本,本身是一个随机数,其中一些观察重复,也是很正常的。这也是bootstrap的工作原理。
     可参考一些 BOOTSTRAP书,来理解重复观察的意义。。
     从信息角度来说,既然一个数据即包含了信息,重复实是没必要了。。重复,仅仅代表,在此观察点,数据分布密度更高些。在学习中,权重也就高些。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-28 12:42:08
jgchen1966 发表于 2018-11-28 10:55
拟合统计学习模型时,本是要学习一个概率模型P(X,Y) 。但是,P(X,Y)是不知的,我们只有一个由N个观察组 ...
     由上可知,重复来源于“随机抽取”过程,对统计学习过程是没有影响的。但是,人为地对原样本中某此特定的观察点进行重复,就改变了原样本代表的潜在概率模型P(X,Y),也就会影响后续的统计结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-28 16:08:44
其实你把重复的量当成样本权重就好了 也就是说 样本并不是均匀分布的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群