财经节析 发表于 2018-8-29 17:07
大家来聊一聊,“过拟合现象”的根本原因是什么?
刚才不小心发到Stata专栏里去了,又无法撤销
首先先说一下题主观点的问题:什么是样本对总体的代表性呢?如果的说iid取样,那么样本量越大,样本对总体的代表性越好。换句话说,在固定样本数量的情况下,样本代表性总是十分有限的(如果非要用个数字来衡量的话那我认为应当是远小于1)。模型拟合讨论的都是在有限样本的情况下,所以像题主所说的完全代表对于有限样本是不存在的。
再说一下题主观点的亮点:计量与机器学习确实不一样。计量的模型拟合的目的在于解释与推断,而机器学习在于预测。两者确实有本质的区别。但是在过拟合的问题上,两者有相通的原因和表象: 原因为所选取的模型的函数空间过大。或者说模型复杂度过高,自由度过大。而表现出来的现象从bias-variance tradeoff角度讲是很小的bias同时有很大的variance,与之相对应的欠拟合是很大的bias同时有很小的variance。