将零食装进容器、把衣物按颜色分类、让植物住进花盆——这些日常中我们习以为常的小动作,虽然简单,却并不意味着明年每家每户就能拥有一台能自主完成家务的人形机器人。然而,Google DeepMind与Apptronik联合展示的Apollo机器人,正让家庭自动化从幻想走向现实。这台机器人能够根据语音指令操作它从未接触过的物体,展现出前所未有的适应能力。
在演示视频中,Apollo展示了打开密封袋、把面包片放入其中、分拣深色与浅色衣物,以及操控各种形状奇特的真实物品的能力——包括柔软易变形或难以抓握的物件。它能理解诸如“拿起绿色方块”或“把这些衣服分成深色和浅色”这样的自然语言指令,并在环境发生变化时做出反应,比如当研究人员移动了目标容器或调整了物体位置。
尽管它的动作尚未达到人类的速度与流畅度,“有时看起来确实有点笨拙,”数学家兼DeepMind播客主持人Hannah Fry指出,“但你必须意识到,几年前,一个能理解语义、构建场景上下文、并推理复杂任务流程的机器人,完全是科幻级别的设想。”
今年早些时候,Google参与了Apptronik高达4.03亿美元的融资轮。而早在去年12月,Apptronik就宣布与Google DeepMind的机器人实验室建立战略合作伙伴关系,目标是“融合顶尖人工智能、前沿硬件与具身智能技术”。这种合作模式可以简洁概括为:Apptronik负责打造机器人的“身体”,Google则为其注入“大脑”。
这个“大脑”正是基于Gemini 3不断进化的AI系统,尤其是专为机器人开发的Gemini Robotics版本。该版本支持多种物理形态——无论是双臂工业机械臂,还是像Apollo这样完整的人形结构——都能共享同一套智能模型,无需针对每种形态单独进行大规模重新训练。
其最终愿景是实现一个真正意义上的通用机器人:不仅能搬箱子或执行工厂中的固定流程,更要能在人类真实生活中应对复杂且不可预测的任务,例如打包便当、整理洗衣房、开启陌生包装,甚至在面对全新物体时也能灵活应对。
当前的软硬件协同正在逐步逼近这一目标。Figure公司此前也展示了其人形机器人流畅地完成家庭常见任务,如将餐具放入洗碗机、收纳采购回来的食品等。得益于更强大的AI算法、优化的硬件设计以及成本更低的核心组件,过去两年间人形机器人的发展速度显著加快。
如果这些实验室成果能够在真实环境中稳定复现,那将预示着重大突破的到来。DeepMind与Apptronik正在尝试将高精度人形机器人硬件与基础模型驱动的智能深度融合,打造出一种只需极少额外训练即可胜任广泛物理任务的通用平台。这或许就是人们长久以来所期待的“通用机器人工人”:具备成本效益,能理解指令、规划多步操作、适应新对象,并以接近人类水平的灵巧性执行任务。
不过,在灵巧性方面仍需保持理性预期。目前机器人远未达到完美操作的程度。例如,在Google的演示中,机器人成功将面包片放入密封袋的过程看似顺利,但仔细观察会发现,它并未真正封上袋子口——这项任务极其困难,甚至对人类来说也颇具挑战。
尽管如此,搭载Google DeepMind AI的Apollo已展现出四项关键能力:
- 灵巧性:可精细操控非标准化物品,如薄而柔软的薯片袋;
- 泛化能力:能够识别并正确处理从未见过的新物体;
- 自然语言控制:响应需要深层世界理解的语音命令,如“把绿色方块放到橙色托盘里”;
- 长期规划:自主分解任务步骤,完成多阶段目标。
然而,通往实用化之路依然漫长。首要问题是效率:当前机器人执行任务时普遍缓慢,仿佛处于慢动作状态。这意味着需要更先进的硬件支撑——包括更高性能的关节、执行器(即人工“肌肉”)以及更灵敏的控制系统。
其次,训练方式亟待革新。“这些机器人需要海量数据才能学会基本技能,”Google DeepMind机器人技术总监Kanishka Rao表示,“我们需要一次突破,使它们能更高效地利用已有数据进行学习。”
这涉及对交互数据和操作经验的深度利用,以便机器人能从中提炼规律,进而掌握未曾经历过的全新任务。此外,安全性也是不可忽视的一环:当机器人进入家庭环境,它们必须确保不会对人类成员——尤其是儿童和宠物——造成任何风险。
当然,还有那些不能被打碎的东西——比如奶奶珍藏的瓷器。
Q&A
Q1:Apollo机器人有哪些核心能力?
A:Apollo具备四大核心能力:精细操控非标准物品(如薯片袋)、处理未见过的新物体、遵循复杂的语音指令(如“把绿色方块放到橙色托盘里”),以及自主规划多步骤任务流程。同时,它能在环境发生变动时进行动态调整。
Q2:Google和Apptronik的合作模式是什么?
A:合作本质是“硬件+软件”的强强联合。Apptronik提供Apollo人形机器人的实体结构与运动系统,Google则通过Gemini 3及其专用机器人版本Gemini Robotics赋予其智能决策能力。该AI系统支持多种具身形态,无需为不同机器人结构重复训练模型。
Q3:人形机器人距离真正普及还有哪些挑战?
A:主要挑战包括提升动作速度与灵巧性、优化硬件性能(如执行器与控制系统)、改进数据使用效率以加速学习过程,以及确保在家庭等复杂环境中运行的安全性。此外,还需解决成本控制与规模化生产问题,才能实现广泛应用。
当前面临的主要挑战有三个方面:首先是动作执行速度较慢,这主要受限于现有硬件性能,例如关节和执行器的响应能力有待提升;其次,训练效率不高,模型通常需要依赖海量数据才能掌握新任务,学习成本较大;最后是安全性的保障问题,在有人类或宠物共处的家庭环境中,机器人必须具备可靠的安全机制。即便是开启密封袋这类看似简单的精细操作,现阶段仍难以稳定实现。
