重复样本对模型的预测有何影响？

露露的家园2012

5772

收藏 2018-11-26

大家好：
有一个问题，想和大家一起讨论一下：重复样本对模型的预测有何影响？重复数据会影响数据的分布，那么对神经网络类的预测以及决策树类的预测分别存在什么样的影响？欢迎大家讨论！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

雾锁山城

2018-11-27 08:52:36

有，影响还是很大的。比如回归中损失函数为 loss=sum[(y_true-y_pred)^2]。重复样本同样会对loss有影响，会使回归向重复样本方向拉。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2018-11-28 10:03:40

雾锁山城发表于 2018-11-27 08:52
有，影响还是很大的。比如回归中损失函数为 loss=sum[(y_true-y_pred)^2]。重复样本同样会对loss有影响，会 ...

果然，通过我最近做的一个模型，原始数据100万（包括重复），去重之后23万，先后建立两个模型（采用GBDT算法建立的），在两个预测模型预测过程中发现，重复数据预测模型预测的结果比较平稳，偏向重复数据的分布；而去重之后的模型预测的结果起伏较大。那到底哪种情况更加反映实际情况呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2018-11-28 10:55:36

拟合统计学习模型时，本是要学习一个概率模型P(X,Y) 。但是，P(X,Y)是不知的，我们只有一个由N个观察组成数据样本(xi,yi) (i=1,2,...N)，假设这个数据样本是从P(X,Y)是随机抽取的，同时也假设未来测试样本也是从P(X,Y)中随机抽取的。这是统计学习（或机器学习的基本假设）。。
既然从一个概率模型P(X,Y)中随机抽取，这个样本，本身是一个随机数，其中一些观察重复，也是很正常的。这也是bootstrap的工作原理。
可参考一些 BOOTSTRAP书，来理解重复观察的意义。。
从信息角度来说，既然一个数据即包含了信息，重复实是没必要了。。重复，仅仅代表，在此观察点，数据分布密度更高些。在学习中，权重也就高些。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2018-11-28 12:42:08

jgchen1966 发表于 2018-11-28 10:55
拟合统计学习模型时，本是要学习一个概率模型P(X,Y) 。但是，P(X,Y)是不知的，我们只有一个由N个观察组 ...

由上可知，重复来源于“随机抽取”过程，对统计学习过程是没有影响的。但是，人为地对原样本中某此特定的观察点进行重复，就改变了原样本代表的潜在概率模型P(X,Y），也就会影响后续的统计结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jinkelazzz

2018-11-28 16:08:44

其实你把重复的量当成样本权重就好了也就是说样本并不是均匀分布的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

凌1975

2018-11-28 16:22:21

预测偏移

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

雾锁山城

2018-11-29 09:19:46

露露的家园2012 发表于 2018-11-28 10:03
果然，通过我最近做的一个模型，原始数据100万（包括重复），去重之后23万，先后建立两个模型（采用GBDT算 ...

对于实际应用，你应该确定什么是确定的重复，比如
商家ID 产品A 产品B  产品C
1          10       8       12
2          10       8       12
1          10       8       12
其中第一条数据和第二条数据虽然他们在产品A、B、C的销量一样，但是他们不是重复数据。
第一条和第三条才是重复数据。
最好能从数据的产生过程判断数据是否是真的重复。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

雾锁山城

2018-11-29 09:19:49

露露的家园2012 发表于 2018-11-28 10:03
果然，通过我最近做的一个模型，原始数据100万（包括重复），去重之后23万，先后建立两个模型（采用GBDT算 ...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

雾锁山城

2018-11-29 09:19:52

露露的家园2012 发表于 2018-11-28 10:03
果然，通过我最近做的一个模型，原始数据100万（包括重复），去重之后23万，先后建立两个模型（采用GBDT算 ...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2018-11-29 10:24:17

雾锁山城发表于 2018-11-29 09:19
对于实际应用，你应该确定什么是确定的重复，比如
商家ID 产品A 产品B 产品C
1 10 ...

这个对我的启发很大，那比如数据是与时间相关的，比如机器生产制造：
data：
time                         var1    var2    var3
2018-11-29 10:20:01    51       52       53
2018-11-29 10:20:02    51       52          53
2018-11-29 10:20:03    52       53       53
2018-11-29 10:20:04    51       52          53

这些数据是不同时间产生的，那这些数据有不同的时间标签，那是否可以认为是重复性数据？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2018-11-29 11:17:16

露露的家园2012 发表于 2018-11-29 10:24
这个对我的启发很大，那比如数据是与时间相关的，比如机器生产制造：
data：
time ...

我觉得，我已说得很清楚了！！
对于，特定问题，特定数据集，只有理解数据生成机理的使用者，才能悟得明白，但不一定说得明白。
因为我们不知道P(X,Y) 。。。如果知道了P(X,Y),则一切数据分析，也就没有必要了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2018-11-29 13:44:35

露露的家园2012 发表于 2018-11-29 10:24
这个对我的启发很大，那比如数据是与时间相关的，比如机器生产制造：
data：
time ...

显然不是重复数据啊。
工业应用里，很多数据有周期性。所以这种数据很常见。

这种数据显然是时间序列数据，你用gbdt做预测不合适吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

雾锁山城

2018-11-30 09:02:32

露露的家园2012 发表于 2018-11-29 10:24
这个对我的启发很大，那比如数据是与时间相关的，比如机器生产制造：
data：
time ...

这个不是重复数据。这个数据采样周期是一秒，所以个人觉得这个数据不能直接用，应该是需要加工，比如问问业务的意见，如取30秒的平均等。这样子就会减少“重复”；只是个人这么觉得哈，具体应基于实际的业务应用。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群