全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
28717 17
2012-07-04
悬赏 1000 个论坛币 已解决
training, test, validation之间的关系?预测的时候,其参数是怎么处理?怎么评估,分定性数据和连续性数据?

这是经验之谈,而不是理论

谢谢!

最佳答案

smyume 查看完整内容

坐等抽红包
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-7-4 12:57:12
坐等抽红包
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-7-4 19:43:34
training是训练数据,拿来拟合模型,就是用这部分数据来建立模型,这个相信大家都明白。
validation是验证数据,刚才说training建了一个模型,但是模型的效果仅体现了训练数据,但不一定适合同类的其他数据,所以我们会在建模前会将数据分成两部分,一部分为训练数据,一部分为验证数据(两部分数据的比例大致为7:3,这取决于你验证的方法,详细说明我从网上摘了下放在本次说明的最下边,但愿你能看懂);另外,你也可能训练多个模型,但不知哪个模型性能更佳,这时可以将验证数据输入不同模型进行比较。
test是测试数据,它跟前两者的最大区别在于:training和validation数据均是同一时期的数据,如都是5-7月数据,但既然是测试,我们就需要用跨期的数据来验证模型的稳定性,此时,可采用8月单月数据或9月单月数据对建好的模型进行测试,看性能有没有下降或偏移。

==================
Holdout 验证常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。

K-fold cross-validation{{K次交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-7-5 21:18:24
yangponingsui 发表于 2012-7-4 19:43
training是训练数据,拿来拟合模型,就是用这部分数据来建立模型,这个相信大家都明白。
validation是验证 ...
你知道当前美国实战界,在最后输出的模型中,用的是这3中数据集的什么数据吗?如果知道,你就是实战派高手了,呵呵。加油!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-8-5 23:11:28
training test validation 各有其用,实践中有了体会
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-8-6 14:10:32
yangponingsui 发表于 2012-7-5 21:18
你知道当前美国实战界,在最后输出的模型中,用的是这3中数据集的什么数据吗?如果知道,你就是实战派高手 ...
请问大神所说的最后输出模型中,用的是这三个钟数据集的什么数据吗?指的是什么,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群