昨日阅读1小时,累计168.5 h
我们还需要第三个数据集:检验集(test set),有时也称为发布集(publication set),它包含在训练或验证阶段未使用过的数据。
(例如现实生活中,选修一门课程时,讲授课堂上的例题构成了训练集,考试题目是验证集,我们职业生涯中解决的问题就是检验集)
训练数据是一个随机样本。即对于相同的应用,如果多次收集数据,则将得到稍微不同的数据集,拟合的h稍微不同,且具有稍微不同的验证误差。
或者,我们把固定的数据集划分成训练、验证、检验集,则根据划分方式的不同,会有不同的误差。
这些微小的区别使得我们可以估计多大的差别可以看作显著的而非偶然的。
后面会学习到如何设计机器学习实验,如何分析实验结果,得到最少受随机性影响的、统计显著的结论。
2.8 监督机器学习算法的维
归纳前续要点。我们有样本: 花x={ x t, r t } t =1 到N t是上标。
该样本是独立同分布的(Independent and identically distributed, iid)
次序并不重要,而所有的实例都取自相同的联合分布p(x, r)
t是实例中的一个, x t是任意维的输入,而r t是相关联的预期输出。
(还没描述完)。。。