全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2016-12-14 12:22:47
jgchen1966 发表于 2016-12-14 11:17
行吧!!!人人是不同的,念书的结果当然 也不同!!!
好吧,随机森林你解释不了,又引用了SVM里的机器学习的概念来碾压。但是依然无法解释需要LZ数据的独立同分布。如果每个样本之间的分布不同,怎么将模型应用于未知样本?
但是其实同分布这个问题除了用于证明模型的有效之外,根本无需考虑,这也是你所说的“大家容易忽略”的部分。因为这个分布是未知而“假设”的,因此我可以认为所有的样本在一定的应用范围内都是同分布的,只是分布未知。所以,不是大家故意忽略,而是机器学习之所以适用,就是不用考虑,因为从总体中随机抽样的样本必定服从一个未知的分布,自然不需要要求数据独立同分布。写证明性的论文你必须按这个假设去走,但是在模型的应用时,不需要考虑,除非你是神,你一眼看透它们的分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 12:30:07
yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsampling-for-class-imbalances.html,用了SMOTE算法进行二次抽样,会更科学。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 12:48:56
yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
差不多就是这个意思。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 12:49:41
大一仔 发表于 2016-12-14 12:30
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...
我一般用rose包。谢谢给出资料。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 12:51:05
还可以这样,不错。感谢这个思路
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 13:36:32
大一仔 发表于 2016-12-14 12:30
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...
我了解过这个方法,我嫌太麻烦了,就没有用,直接复制了。。。。这个方法应该会更好,更科学,谢谢你。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 13:43:43
jameschin007 发表于 2016-12-14 12:48
差不多就是这个意思。
那这个问题先就这样解决吧,非常感谢你这两天不辞辛劳帮我解决问题,谢谢!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-14 13:44:43
大一仔 发表于 2016-12-14 12:30
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...
还有,感谢你提供的这份材料,非常宝贵。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-21 13:08:46
yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
仅仅复制已有数据,没有增加任何新信息量,结果“突一下”变好了,可信吗?? 当然不可信!!!
据我对你数据分析,用测试数据集(test  dataset )的AUC 作模型绩效标准,用 downsample、upsample、smote 、还是,用ROSE  ,  测试数据集的AUC ,约相同,为 0.605-0.635,没啥子实质改善!!!
    你的数据集,非常不规整,理应进行进一步的预处理,并且,这些变量也不是很有效,在实际工作,必然要进一步收集新变量的数据!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-21 13:18:43
数据不规整,会严重影响“随机抽样的”效率与有效性,而,随机森林及模型评估,是建立在随机抽样的有效与高效的基础上!!!
AUC,是评估分类器较佳指标,尤其对不平衡分类数据,它不受分类的切点(cutoff)影响!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-21 13:27:05
yaoqsm321 发表于 2016-12-14 11:25
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
你的这个结果,是oob 的结果。。用cutoff优化,可做至oob分类正确率100%,但对测试集数据预测没实质意义。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:12:17
jgchen1966 发表于 2016-12-21 13:27
你的这个结果,是oob 的结果。。用cutoff优化,可做至oob分类正确率100%,但对测试集数据预测没实质意义。 ...
我发现你是对的,我用我把788复制后,有6千多个数据,然后把所有的连续变量进行了离散化(也就是分成了几类),然后80%为训练,20%为测试,结果非常好。但是我用最新拉出来的439个新数据来跑这个模型,结果却是非常差,而且很多时候运行不出来(显示错误:Type of predictors in new data do not match that of the training data.)我又迷茫了,是因为数据不行吗?但为什么模型再测试数据集上的效果会那么好?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:14:31
jgchen1966 发表于 2016-12-21 13:08
仅仅复制已有数据,没有增加任何新信息量,结果“突一下”变好了,可信吗?? 当然不可信!!!
据我对你 ...
你说的不规整是什么意思呀?又怎么进一步预处理呢?另外,其实我就这么多变量,短期内不可能有新的变量了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:44:35
yaoqsm321 发表于 2016-12-23 15:14
你说的不规整是什么意思呀?又怎么进一步预处理呢?另外,其实我就这么多变量,短期内不可能有新的变量了
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕要将一些水平合并,又如,数据集近一半变量实际是无效的,它们仅仅增加了噪音,增加了模型的过拟可能性。又如,这些变量,表现出明显同一性,都从一方向分类数据,变量缺少多样性,在样本内有一个变量(你自已找)的分类效果已达到randomForest的效果。。。这些,要从数据探索过程中学。没有正式格式。。这也是DATAMINING 中最难的.....
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:49:13
jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕 ...
这不是一个简单的问题,是一种经验:比如,数据集含很分类型变量,但在一些水平,几乎没有数据,这时,恐怕要将一些水平合并,又如,数据集近一半变量实际是无效的,它们仅仅增加了噪音,增加了模型的过拟可能性。又如,数据变量,表现出明显同一性(即相关性很高),都从一方向分类数据,变量缺少多样性,在样本内有一个变量(你自已找)的分类效果已达到randomForest的效果。因而要增加分类效果,必须要有新变量数据,否则就这样一个结果。通过数据探索分析并将其规整化,也就增加AUC 0.1 左右就不错了。。这些,要从数据探索过程中学。没有正式格式。。这也是DATAMINING 中最难的.....
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:52:36
jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕 ...
是的,我的数据集里边有很多变量分为两类,其中一类占了90%,另一类占了10%,差异非常大,,但是我最后都把这种变量给删了,可还是不行
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:52:37
jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕 ...
是的,我的数据集里边有很多变量分为两类,其中一类占了90%,另一类占了10%,差异非常大,,但是我最后都把这种变量给删了,可还是不行
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 15:56:02
jgchen1966 发表于 2016-12-23 15:49
这不是一个简单的问题,是一种经验:比如,数据集含很分类型变量,但在一些水平,几乎没有数据,这时,恐 ...
新变量???如,你的数据,好象要分析客户的好坏,这与经济环境是明显相关的,数据集没有经济环境变量,增加它们,可能会改善分类效果。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 17:19:56
jgchen1966 发表于 2016-12-23 15:56
新变量???如,你的数据,好象要分析客户的好坏,这与经济环境是明显相关的,数据集没有经济环境变量, ...
好吧,那就是说目前没有办法可以改进这个模型楼?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-23 17:37:42
yaoqsm321 发表于 2016-12-23 17:19
好吧,那就是说目前没有办法可以改进这个模型楼?
尚需多方努力吧。。要有一个有实用价值的分类模型,是不易的。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-24 03:20:34
肯定是犯了统计学的两类错误了
原因不出以下几条:
1、数据不平衡,某个分类变量中有些处理有很多重复,有些只有几个个重复或者直接缺失,如果某个分类99%是1,剩下几个可怜的0,不如干脆删掉
2、建议重点看看几个连续变量,如果某段数值缺失,会造成严重的正态性问题,转化下数据,取对数、开根号、反平方根都试试,直到正态性检验通过为止
3、做下共线性检验,把相关性较大的变量合并掉或者删除部分变量
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群