随机森林过拟合问题，在训练集上表现很好，在测试集上的表现很差

2016-12-14 12:22:47

jgchen1966 发表于 2016-12-14 11:17
行吧！！！人人是不同的，念书的结果当然也不同！！！

好吧，随机森林你解释不了，又引用了SVM里的机器学习的概念来碾压。但是依然无法解释需要LZ数据的独立同分布。如果每个样本之间的分布不同，怎么将模型应用于未知样本？
但是其实同分布这个问题除了用于证明模型的有效之外，根本无需考虑，这也是你所说的“大家容易忽略”的部分。因为这个分布是未知而“假设”的，因此我可以认为所有的样本在一定的应用范围内都是同分布的，只是分布未知。所以，不是大家故意忽略，而是机器学习之所以适用，就是不用考虑，因为从总体中随机抽样的样本必定服从一个未知的分布，自然不需要要求数据独立同分布。写证明性的论文你必须按这个假设去走，但是在模型的应用时，不需要考虑，除非你是神，你一眼看透它们的分布。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大一仔

2016-12-14 12:30:07

yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍，然后加进了原数据，数据结构变成了6689个总数据，其中1为4324，0为2364个，然 ...

如果你心里没底，可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsampling-for-class-imbalances.html，用了SMOTE算法进行二次抽样，会更科学。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2016-12-14 12:48:56

yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍，然后加进了原数据，数据结构变成了6689个总数据，其中1为4324，0为2364个，然 ...

差不多就是这个意思。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2016-12-14 12:49:41

大一仔发表于 2016-12-14 12:30
如果你心里没底，可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...

我一般用rose包。谢谢给出资料。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Metaneo

2016-12-14 12:51:05

还可以这样，不错。感谢这个思路

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-14 13:36:32

大一仔发表于 2016-12-14 12:30
如果你心里没底，可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...

我了解过这个方法，我嫌太麻烦了，就没有用，直接复制了。。。。这个方法应该会更好，更科学，谢谢你。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-14 13:43:43

jameschin007 发表于 2016-12-14 12:48
差不多就是这个意思。

那这个问题先就这样解决吧，非常感谢你这两天不辞辛劳帮我解决问题，谢谢！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-14 13:44:43

大一仔发表于 2016-12-14 12:30
如果你心里没底，可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...

还有，感谢你提供的这份材料，非常宝贵。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-21 13:08:46

yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍，然后加进了原数据，数据结构变成了6689个总数据，其中1为4324，0为2364个，然 ...

仅仅复制已有数据，没有增加任何新信息量，结果“突一下”变好了，可信吗？？当然不可信！！！
据我对你数据分析，用测试数据集（test dataset ）的AUC 作模型绩效标准，用 downsample、upsample、smote 、还是，用ROSE , 测试数据集的AUC ，约相同，为 0.605-0.635，没啥子实质改善！！！
你的数据集，非常不规整，理应进行进一步的预处理，并且，这些变量也不是很有效，在实际工作，必然要进一步收集新变量的数据！！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-21 13:18:43

数据不规整，会严重影响“随机抽样的”效率与有效性，而，随机森林及模型评估，是建立在随机抽样的有效与高效的基础上！！！
AUC,是评估分类器较佳指标，尤其对不平衡分类数据，它不受分类的切点（cutoff)影响！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-21 13:27:05

yaoqsm321 发表于 2016-12-14 11:25
我把788个小样本复制了两遍，然后加进了原数据，数据结构变成了6689个总数据，其中1为4324，0为2364个，然 ...

你的这个结果，是oob 的结果。。用cutoff优化，可做至oob分类正确率100%，但对测试集数据预测没实质意义。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-23 15:12:17

jgchen1966 发表于 2016-12-21 13:27
你的这个结果，是oob 的结果。。用cutoff优化，可做至oob分类正确率100%，但对测试集数据预测没实质意义。 ...

我发现你是对的，我用我把788复制后，有6千多个数据，然后把所有的连续变量进行了离散化（也就是分成了几类），然后80%为训练，20%为测试，结果非常好。但是我用最新拉出来的439个新数据来跑这个模型，结果却是非常差，而且很多时候运行不出来（显示错误：Type of predictors in new data do not match that of the training data.）我又迷茫了，是因为数据不行吗？但为什么模型再测试数据集上的效果会那么好？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-23 15:14:31

jgchen1966 发表于 2016-12-21 13:08
仅仅复制已有数据，没有增加任何新信息量，结果“突一下”变好了，可信吗？？当然不可信！！！
据我对你 ...

你说的不规整是什么意思呀？又怎么进一步预处理呢？另外，其实我就这么多变量，短期内不可能有新的变量了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-23 15:44:35

yaoqsm321 发表于 2016-12-23 15:14
你说的不规整是什么意思呀？又怎么进一步预处理呢？另外，其实我就这么多变量，短期内不可能有新的变量了

这不是一个简单的问题，是一种经验：比如，数据集含很分类数据，但在一些水平，几乎没有数据，这时，恐怕要将一些水平合并，又如，数据集近一半变量实际是无效的，它们仅仅增加了噪音，增加了模型的过拟可能性。又如，这些变量，表现出明显同一性，都从一方向分类数据，变量缺少多样性，在样本内有一个变量（你自已找）的分类效果已达到randomForest的效果。。。这些，要从数据探索过程中学。没有正式格式。。这也是DATAMINING 中最难的.....

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-23 15:49:13

jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题，是一种经验：比如，数据集含很分类数据，但在一些水平，几乎没有数据，这时，恐怕 ...

这不是一个简单的问题，是一种经验：比如，数据集含很分类型变量，但在一些水平，几乎没有数据，这时，恐怕要将一些水平合并，又如，数据集近一半变量实际是无效的，它们仅仅增加了噪音，增加了模型的过拟可能性。又如，数据变量，表现出明显同一性（即相关性很高），都从一方向分类数据，变量缺少多样性，在样本内有一个变量（你自已找）的分类效果已达到randomForest的效果。因而要增加分类效果，必须要有新变量数据，否则就这样一个结果。通过数据探索分析并将其规整化，也就增加AUC 0.1 左右就不错了。。这些，要从数据探索过程中学。没有正式格式。。这也是DATAMINING 中最难的.....

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-23 15:52:36

jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题，是一种经验：比如，数据集含很分类数据，但在一些水平，几乎没有数据，这时，恐怕 ...

是的，我的数据集里边有很多变量分为两类，其中一类占了90%，另一类占了10%，差异非常大，，但是我最后都把这种变量给删了，可还是不行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-23 15:52:37

jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题，是一种经验：比如，数据集含很分类数据，但在一些水平，几乎没有数据，这时，恐怕 ...

是的，我的数据集里边有很多变量分为两类，其中一类占了90%，另一类占了10%，差异非常大，，但是我最后都把这种变量给删了，可还是不行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-23 15:56:02

jgchen1966 发表于 2016-12-23 15:49
这不是一个简单的问题，是一种经验：比如，数据集含很分类型变量，但在一些水平，几乎没有数据，这时，恐 ...

新变量？？？如，你的数据，好象要分析客户的好坏，这与经济环境是明显相关的，数据集没有经济环境变量，增加它们，可能会改善分类效果。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2016-12-23 17:19:56

jgchen1966 发表于 2016-12-23 15:56
新变量？？？如，你的数据，好象要分析客户的好坏，这与经济环境是明显相关的，数据集没有经济环境变量， ...

好吧，那就是说目前没有办法可以改进这个模型楼？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2016-12-23 17:37:42

yaoqsm321 发表于 2016-12-23 17:19
好吧，那就是说目前没有办法可以改进这个模型楼？

尚需多方努力吧。。要有一个有实用价值的分类模型，是不易的。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

机械唯物主义123

2016-12-24 03:20:34

肯定是犯了统计学的两类错误了
原因不出以下几条：
1、数据不平衡，某个分类变量中有些处理有很多重复，有些只有几个个重复或者直接缺失，如果某个分类99%是1，剩下几个可怜的0，不如干脆删掉
2、建议重点看看几个连续变量，如果某段数值缺失，会造成严重的正态性问题，转化下数据，取对数、开根号、反平方根都试试，直到正态性检验通过为止
3、做下共线性检验，把相关性较大的变量合并掉或者删除部分变量

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群