知识获取是关于建立泛化能力。在
机器学习世界中,泛化是指模型根据从未见过的数据做出准确预测的能力。泛化好的模型具有处理来自新场景的数据的智能。人类智能也是如此。孩子们开始从例子中学习,最初他们无法对不可预见的情况做出适当的反应。逐渐地,他们获得了应对所有情况的概括技能。泛化在人类和机器获取智能方面发挥着重要作用。能够快速概括的机器或人被认为更聪明。简而言之,人们认为概括能力可以被视为智力的衡量标准。在这篇博客中,让我们详细研究这种信念。
过拟合模型就像一个孩子,在没有从理论中学到的泛化的情况下,就将结果胡作非为。这些模型在训练期间损失很低,但在使用新数据进行预测时表现不佳。如果一个模型很好地拟合了当前样本,我们怎么能相信它会对新数据做出好的预测呢?过度拟合是由于模型过于复杂而导致的。机器学习的基本规则是尽可能简单地拟合数据。
如果给孩子看猫的图片,他们可以很容易地将猫这个词与猫的形状联系起来。如果图片倒置,有些孩子可能难以识别。老师需要告诉孩子这也代表一只猫。现在孩子意识到物体的形状与方向无关。在使用神经网络和
深度学习时,一种称为数据增强的技术用于提供方向独立性。数据增强意味着从给定数据生成相同数据的新化身。通常这是通过随机翻转和移位修改数据集中的图像以编程方式完成的。这使得训练数据集更大,并帮助模型概括图像中表示的对象的形状,并教导模型形状与图像中表示的对象的位置和方向无关。这正是幼儿园老师对孩子所做的。因此,数据增强可以帮助孩子和模型轻松泛化并快速学习。
大多数机器学习库都提供了一个图像增强 API,可用于在训练数据集中即时创建图像的修改版本。过度拟合是泛化的敌人,因为它使学习者在不理解的情况下胡思乱想。数据增强通过将对象的所有特征暴露给学习者(无论是孩子还是深度学习模型)来帮助避免过度拟合。当模型试图非常接近地拟合训练数据以至于它不能很好地泛化到新数据时,就会发生过度拟合。总而言之,如果你不能很好地概括,那么你的智力水平就很低。这对于人类和机器学习模型都是如此。
随着年龄的增长,你掌握了概括的技巧,你的智力也在增长。随意概括和快速学习。下次见…………
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|