在过去 8 年中,对 1,800 多家计算机视觉初创公司的投资已超过 15B 美元 。这些公司中有 20 多家目前的估值超过 1B 美元,据 《福布斯》报道,还有更多。
为什么这些公司估值如此之高?简而言之,他们正在教计算机如何看东西。通过这样做,他们将以前使用人类视觉完成的任务自动化。
这一繁荣是在 2012 年计算机视觉技术 拐点之后 出现的,随着
神经网络的出现——模仿人类大脑并使用大量人类标记数据进行训练的算法。自 2012 年以来,算法稳步改进,并在许多视觉任务中与人类相匹敌,例如计数物体、 唇读 或 癌症筛查。
在接下来的 10 年里,每个人都尽了自己的一份力:学术界以更好的算法引领潮流;大公司投资了一支勤奋地标记这些图像数据集的人类大军。其中一些努力甚至为了社区的利益而开源,例如 ImageNet,一个 1400 万张图像数据集。
不幸的是,现在随着这些系统被部署到生产中,我们遇到了障碍:
我们拥有的标记 数据是不可靠的。麻省理工学院研究人员对流行的 ML 数据集进行的一项 系统研究发现 ,ImageNet 的错误标记平均错误率为 5.93% ,其他数据集的平均错误率为 3.4%。
很少有 精力专门用于解决数据问题。学术界的智力努力几乎完全集中在算法开发上,而忽略了对良好数据的基本需求——Andrew Ng 的猜测认为该比率为 99% 的算法重点与 1% 的数据。
计算机视觉 算法不能 很好地从一个领域推广到另一个领域。在法国南部训练用于检测汽车的算法将难以在下雪的挪威检测同一辆车。同样,在特定相机上训练的系统可能会因其他相机品牌和型号而失败。
寻找灵感
早在 1946 年,艾伦·图灵就建议将国际象棋作为计算机能力的基准,此后经过深入研究,受到了很多媒体的关注。
衡量国际象棋表现的一种普遍接受的方法是通过 Elo 评级系统,它提供了玩家技能的有效比较。下图显示了世界冠军和国际象棋游戏引擎。在过去的 50 年里,人类的表现一直在 2800 左右徘徊,然后在 2010 年被计算机压制。
直到过去十年,我们人类已经设计了国际象棋算法来根据我们可以设计和理解的规则进行游戏。
深度学习革命让我们突破了人类的理解,带来了飞跃——就像它对计算机视觉一样。
与深度学习国际象棋游戏引擎的进步一样好,它现在已被下一个级别的国际象棋引擎压制: 来自 DeepMind的AlphaZero 。更令人印象深刻的是, AlphaZero 没有使用任何人工数据 来实现这一性能。它是在没有任何历史国际象棋知识的情况下构建的,也没有任何寻找最佳移动的人工指导。AlphaZero 既是老师也是学生——它自学了如何通过与自己竞争并在整个过程中学习来更好地玩游戏。
AlphaZero 战胜 了当时最好的引擎Stockfish 8,没有输掉一场比赛,即使 Alpha Zero 计算下一步行动的时间减少了一个数量级,也保持了这一优势。
考虑到 AlphaZero 的显着改进,人们不得不怀疑: 我们能否将其在国际象棋中的成功转化为计算机视觉?
📰 新浪潮:以数据为中心的
人工智能
在以 数据为中心的 AI新范式中,目标不是创建更好的算法,而是通过更改数据本身来提高性能。即使我们一开始就忽略了获取和标记图像数据集的障碍,数据质量仍然存在问题:我们是否统一覆盖了所有可能的用例?数据是否涵盖边缘情况?
如果我们要走以数据为中心的计算机视觉的道路,就必须控制数据采购过程。数据需要平衡,我们需要对影响计算机视觉模型学习内容的参数有一个很好的理解。
让我们举一个简单的例子,我们来看看控制 3 个这样的参数:摄像机角度、光照和遮挡。你能想象收集一个真实的数据集,在其中你必须努力控制这 3 个参数的值,同时收集 1000 张相关图像吗?有了真实的数据,任务就是西西弗斯。
💾 我们今天如何管理数据?
在过去的 5 年中,我们在优化数据收集过程和数据标签质量方面取得了巨大进步。此外,我们已经学会了通过使用各种 数据增强 技术来充分利用数据集。给定数据集中的图像,我们将数学函数应用于它,以便在我们的数据中创造更多的多样性。
现在有 400 多家公司的总 市值为 1.3 吨 (略高于 Facebook 的市值),以满足我们最新算法的数据需求。
但目前的道路是否会走向死胡同?我们是否达到了建立在人工数据集之上的算法的极限?就像在国际象棋中一样,只要我们使用人类来源的数据作为算法的输入,我们就受设计约束,不能显着超越我们自己的能力。
在国际象棋中,一旦我们停止构建次优的人类数据并允许机器构建自己的数据以优化他们所学的内容,后深度学习的突破就出现了。在计算机视觉中,我们也必须这样做,让机器生成优化自身学习所需的数据。
🏔 计算机视觉的下一步是什么?
创建训练数据的真正可扩展方式是通过 虚拟现实引擎。在保真度方面,输出 变得与现实世界没有区别 ,将完整的场景控制权交给用户。这允许用户 生成智能数据,这对计算机视觉模型学习非常有用。 合成数据可以成为新的以数据为中心的 AI 框架所需的基石。
我们有充分的理由相信,现在是广泛采用视觉合成数据的时候了。
虚拟现实引擎具有用于生成合成数据的专用组件(NVIDIA IsaacSim、 Unity Perception),生成的数据不仅令人赏心悦目,而且 对于训练更好的 算法也是必不可少的。
3D 资产正在迅速成为一种商品——最新的 iPhone 配备了 LiDAR ,而用于 3D 扫描的第一代应用程序正在产生出色的 效果。
Metaverse 即将到来,而且意义重大。如果 60B 美元的预测增长中的一小部分 实现了,我们将生活在一个虚拟现实将成为习惯的世界中。数字双胞胎在今天有真正的应用:一个来自宝马的例子, 未来的工厂, 另一个是谷歌的 供应链双胞胎。
行业的创新者已经开始使用虚拟现实来改进计算机视觉算法:特斯拉 正在使用虚拟世界 来生成边缘案例和驾驶场景的新颖视图。
合成计算机视觉 (SCV)
通过使用正确的工具来构建我们自己的数据,我们可以设想一个开发和训练计算机视觉算法的世界,而无需繁琐的手动数据标记过程。Gartner预测,在未来 3 年内,合成数据将比真实数据更具优势。
为什么不更进一步?一个不需要人类为计算机视觉标记图像的世界呢?
未来是光明的
借助合成计算机视觉,我们构建虚拟现实并为现实世界进行部署。就像 AlphaZero 自学国际象棋中什么是重要的一样,我们让算法决定他们需要看到什么才能以最佳方式学习。
在合成计算机视觉 (SCV) 中,我们使用虚拟现实引擎训练计算机视觉模型并将模型部署到现实世界中。
超越 RGB 图像
现实远比人眼所能看到的要多。我们构建的算法主要关注人类可以理解和标记的内容。但它不一定是那样的——我们可以为传感器构建算法,测量超出人类感知范围。我们可以在虚拟现实中以编程方式训练这些算法,而不用怀疑它们的有效性。
更聪明而不是更难
与其构建更大的模型并使用更多的计算能力来解决我们的问题,我们可以聪明地了解我们如何获取算法学习的数据。算法不需要更多相同的数据来学习,它们需要各种各样的东西。
Deep Mind 表明 AlphaZero 只是道路的开始,因为他们将相同的原理应用于围棋、星际争霸和蛋白质折叠。今天,我们拥有所有必要的构建块来构建计算机视觉的 AlphaZero,这是一个不受设计人工输入限制的自学系统。一个能够创建和操作虚拟场景的系统,通过它它可以自学如何解决视觉自动化任务。
合成数据生成的先驱
合成计算机视觉的基础是由它所建立的合成数据提供的。大约有30 家早期公司在视觉合成数据生成领域开展业务。有些专注于一个垂直领域的特定用例,而大多数则在多个垂直领域横向运营。
我们才刚刚起步。请记住,合成数据只是等待解决的难题的一部分!
很容易想象,在 10 年后,您的智能手机将拥有比一般视觉感知更好的功能,但我们将如何实现呢?
(增强的)数据标注器是留在这里还是只是一个垫脚石?
标签会从 2D 转移到 3D 世界,还是完全不用这种方法?
最先进的结果是使用计算机视觉中的深度学习算法实现的——合成计算机视觉能否实现以前无法获得的新一轮改进算法?