您好!
1.前期整理好数据后,选择partition节点 连接入数据流,在里面可以设置训练集、测试集及验证集,若要平分在测试集及训练集栏位内填上50%。
另外可以设置标签及数值;上面设置是对数据表中增加标志字段(区分测试集和训练集)的数值进行选择,第一个表示使用1、2、3这样的数值来表示,第二个是使用“1_training“等来表示,第三个是使用”training“等来表示,可以通过第二个图中的value来观察。此外下面还有设置随机种子的选项。
ps:在分割完不同集合后,可以右击partition节点,选择cache中enable,这样随机分割完的数据就可以暂时存在缓存中,这样不同时候进行不同建模的时候就不会因为样本不同而使结构受影响!(第一次执行后会在节点的右上方出现绿色的文件件的标签)
2.如果训练好模型后,把所得的模型节点从右上方拖到数据流的测试集后,建立连接后,再加个分析节点或一些结果的节点就可以了。