急！Clementine训练数据和测试数据问题求助

7276

收藏 2011-05-03

需要用Clementine中的CART或者C5.0对一系列的数据进行处理，生成分类树。
1，需要将源数据分成训练集数据和测试集数据吗？
看Clementine自带的Demo里面的模型里没看到明显的将数据分成这两类的啊。
之前实验的时候都是把所有的数据作为训练数据输入到CART或者C5.0模型中，这样得到的树和分一部分的数据作为测试的差别大吗？

2，如果需要将数据分成训练集数据和测试集数据，怎么区分？
我看网上有好几种说法。
有的说使用字段选项的分区节点，将数据分成训练集数据和测试数据，先用训练数据得到预测模型，然后将界面右上角的模型加到测试数据后面，再添加一个分析节点。
还有种说法是说使用m-folder cross validation即交叉验证的方法。但是CART模型里面没有这个选项。C5.0有这个选项，不大清楚折叠次数怎么设置。如果要训练数据：测试数据=1:1的话，折叠次数是2吗？如果是7:3呢？预设的是10代表什么含义？

不胜感激！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

lvyuqin0624

2012-3-22 13:30:33

同问。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dl_user_tt

2013-3-7 00:29:10

Clementine中将数据分为训练集和测试集

选择partition节点连接入数据流，在里面可以设置训练集、测试集及验证集，若要平分在测试集及训练集栏位内填上50%。另外可以设置标签及数值；下面的设置是对数据表中增加标志字段，如flag，（区分测试集和训练集）的数值进行选择，例如，使用“1_training“等来表示训练集。在分割完不同集合后，可以右击partition节点，选择cache中enable，这样随机分割完的数据就可以暂时存在缓存中，这样不同时进行不同建模的时候就不会因为样本不同而使结构受影响

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

weibaojun641

2013-4-19 15:55:10

受教了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群