全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
13559 25
2015-04-14
我首先做的是特征选择,在30~50db混合噪声环境下从25个特征中选择出4个特征,然后用这4个特征进行随机森林建模和训练,因为类别数(6类)、特征数(4个)和数据集(3000组)都比较小,所以选择树的个数为50,训练完后用该模型对50db噪声环境下的600组数据(每类100组)进行分类,结果全都正确。接着将树的个数增加到100,再对50db噪声环境下同样数据进行分类时,第四类完全分类错误,如果再增加数的个数,第一类有时都会出现分类出错,请问这是什么原因?是产生了过拟合吗?此外,set.seed函数设置不同的数值会对分类结果产生影响吗?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-4-14 12:47:31
楼主方便的话,还是把你的数据集好代码都贴上来,让大家跑跑看。

另外,set.seed是为了方便实验结果重现,对结果并没有什么决定性的影响。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-14 14:36:45
harpbreeze 发表于 2015-4-14 12:47
楼主方便的话,还是把你的数据集好代码都贴上来,让大家跑跑看。

另外,set.seed是为了方便实验结果重现 ...
train5161819.txt
大小:(226.13 KB)

 马上下载



test50.txt
大小:(263.13 KB)

 马上下载


QQ截图20150414143416.png QQ截图20150414143440.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-14 14:38:26
harpbreeze 发表于 2015-4-14 12:47
楼主方便的话,还是把你的数据集好代码都贴上来,让大家跑跑看。

另外,set.seed是为了方便实验结果重现 ...
而且我试过修改set.seed函数值,结果有点不一样
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-14 17:09:10
楼主,test50.txt 有25列,不知道是什么情况呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-14 17:12:11
楼主,test50里面有25列呢,而且好像没有class标签呀?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群