[求助]请教几个SAS数据挖掘的基本问题？——关于regression和assessment_急！！

3098

收藏 2008-05-20

初次用SAS做模型，问一些比较白的问题，请大家不吝赐教。

我在EM里做了个简单的logit模型，

流程：data-->data set attributes-->data partition-->regression-->assessment-->report

其中，partition部分我将数据分为：train 60%, validation 40%。

问题：

1.如果说train data是用来生成模型的，那么validation data和test data用途上有什么区别呢？assessment里应该用哪个data做评估？

2.我知道regression节点会根据回归结果生成一个scored data set，那么这个set是仅包括train data的score还是所有数据的score？我从哪里能看到这些score？

3.运行后report里面说：

Train data set is selected for assessment.
Validation data set is not selected for assessment.

如果要用validation data来做assessment，在哪里可以设置？

看了一下SAS帮助，里面貌似说assessment界面上的options tab可以设置"active data set (training, validation (default), test)"，但我打开assessment的options后发现里面全都是阴影字，不让选的。问题出在哪里了呢？

[此贴子已经被作者于2008-5-20 11:15:59编辑过]

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

olover

2008-5-21 04:43:00

1. Validation data is necessary for tuning and slecting your model, but testing dataset is optional. If you have enough dataset, you want to test(verify) your selected model , you can use test data. Assessment is based on validation dataset, but for some algorithm such as KNN, assessment is based on training.

2. I dont know which version you are using. In 5.2, EM scores both training and validation dataset, and validation is the default for model selection.

[此贴子已经被作者于2008-5-21 4:44:21编辑过]