详细讲讲，training, test,validation之间区别，在预测中如何运用参数

爱萌

29098

收藏 2012-07-04

悬赏 1000 个论坛币已解决

training, test, validation之间的关系？预测的时候，其参数是怎么处理？怎么评估，分定性数据和连续性数据？

这是经验之谈，而不是理论

谢谢！

最佳答案

smyume 查看完整内容

坐等抽红包

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

smyume

2012-7-4 12:57:12

坐等抽红包

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangponingsui

2012-7-4 19:43:34

training是训练数据，拿来拟合模型，就是用这部分数据来建立模型，这个相信大家都明白。
validation是验证数据，刚才说training建了一个模型，但是模型的效果仅体现了训练数据，但不一定适合同类的其他数据，所以我们会在建模前会将数据分成两部分，一部分为训练数据，一部分为验证数据（两部分数据的比例大致为7:3，这取决于你验证的方法，详细说明我从网上摘了下放在本次说明的最下边，但愿你能看懂）；另外，你也可能训练多个模型，但不知哪个模型性能更佳，这时可以将验证数据输入不同模型进行比较。
test是测试数据，它跟前两者的最大区别在于：training和validation数据均是同一时期的数据，如都是5-7月数据，但既然是测试，我们就需要用跨期的数据来验证模型的稳定性，此时，可采用8月单月数据或9月单月数据对建好的模型进行测试，看性能有没有下降或偏移。

==================
Holdout 验证常识来说，Holdout 验证并非一种交叉验证，因为数据并没有交叉使用。随机从最初的样本中选出部分，形成交叉验证数据，而剩余的就当做训练数据。一般来说，少于原本样本三分之一的数据被选做验证数据。

K-fold cross-validation{{K次交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10次交叉验证是最常用的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangponingsui

2012-7-5 21:18:24

yangponingsui 发表于 2012-7-4 19:43
training是训练数据，拿来拟合模型，就是用这部分数据来建立模型，这个相信大家都明白。
validation是验证 ...

你知道当前美国实战界，在最后输出的模型中，用的是这3中数据集的什么数据吗？如果知道，你就是实战派高手了，呵呵。加油！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

爱萌

2012-8-5 23:11:28

training test validation 各有其用，实践中有了体会

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wodemac

2012-8-6 14:10:32

yangponingsui 发表于 2012-7-5 21:18
你知道当前美国实战界，在最后输出的模型中，用的是这3中数据集的什么数据吗？如果知道，你就是实战派高手 ...

请问大神所说的最后输出模型中，用的是这三个钟数据集的什么数据吗？指的是什么，谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

wodemac

2012-8-6 14:11:05

yangponingsui 发表于 2012-7-4 19:43
training是训练数据，拿来拟合模型，就是用这部分数据来建立模型，这个相信大家都明白。
validation是验证 ...

同意ls观点

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wodemac

2012-8-6 14:16:11

training和validation都是我们建模时用的数据集，区别就是把建模数据集一开始要分成train和validation数据集。test数据集是新的数据集，跟之前没有关系，为了测试我们建立的模型稳定性如何。定性变量如果分类较多，就要进行定性变量压缩，把它压缩成几个虚拟变量。连续变量也涉及到变量的压缩，主要是自变量跟因变量不是线性关系，我们要进行变量变换，这样才能满足模型的要求。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

爱萌

2012-8-6 19:34:58

wodemac 发表于 2012-8-6 14:16
training和validation都是我们建模时用的数据集，区别就是把建模数据集一开始要分成train和validation数据集 ...

是否可以在详细一些

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangponingsui

2012-9-4 12:54:44

建模的关键不在如何划分和理解这些数据集（相信很多人都清楚这3类数据集），之前提到的最后建模用什么数据，就是指这三种数据集中的哪部分（答案就是所有数据，并不区分3类数据集，并用其中一类数据去建模）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pengyizhen

2012-9-5 17:45:46

我看到书上是这样说的：训练集training主要是用于模型的选择，testing集用于模型参数的选择，例如，已经选择了神经网络模型，那么还需要确定其具体参数，如隐含层应设为多少比较合适等，validation集用于计算模型误差，和效果

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pengyizhen

2012-9-5 17:54:52

我也是对这个问题想了好久，也是不知道其中的原因的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

--墨子--

2012-10-28 01:07:26

如果只有一个模型，比如用Logistic + Enter，那把样本分为Training + Test就行；Training Sample用于训练模型，Test Sample用于检测效果；

如果要比较不同的模型，比如Logistic+Enter/Logistic+Forward/Logistic+backward/Logistic+stepwise/Neural Network/ClassificationTree，这样子用Training samle训练模型，然后用Validation sample去比较各个模型的performance，选出performance最好的模型，最后用这个模型去score test sample并给出最终的performance

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cricke

2012-11-20 00:37:54

我来说几句：
train和validation一般来自同一个总体，具体比例依据实际情况而定，有5:5/6:4/7:3==。很多时候预测模型都是rare event，足够sample样本都很难得（如违约、欺诈），因此实际有些时候还是全部用于train，模型验证（test vs control）通过上线实施来确定。

理想情况下：
1、train用来拟合模型，可能对同一种算法有多种复杂度（涉及过拟合情况。甚至一次迭代认为是不同的模型或者不同复杂度的模型）的模型；
2、validation用来在上面多种复杂度的模型中选择出某一特定统计指标评估最优的模型，如decision tree的pruning；
多种模型（包括不同算法）的选择也是基于validation数据的某一特定统计指标（该指标可以同上面，如误分类率/ASE/ROC/GINI/KS==，不同类型目标用不同指标评估）最优；
3、test一般独立于train和validation，是模型上线后用roll out数据做验证（control vs test）；

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pengyizhen

2012-11-20 10:47:40

smyume
的具体内容在哪里呢？怎么没有看到

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pengyizhen

2012-11-20 10:49:17

smyume 发表于 2012-7-4 12:57
坐等抽红包

smyume 的具体回复内容木有看到@

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

melody507

2012-11-21 22:31:28

。。。。。。。。。。。。。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

rockingzone

2020-1-1 10:16:21

training sample used to train the model; validation sample for validating and tuning the models; test sample for testing the model's ability to predit well on new data

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群