摘要:我们考虑语义机器人掌握的任务,其中机器人仅使用单目图像来拾取用户指定类的对象。受视觉推理的双流假说的启发,我们提出了一种以端到端的方式学习对象检测,分类和掌握规划的语义掌握框架。 “腹水”识别对象类,而“背部流”同时解释执行成功抓握所必需的几何关系。我们利用机器人的自主数据收集能力,获得一个大型的自我监督数据集,用于训练背部流,并使用半监督的标签传播来训练腹水,只有适度的人力监督。我们实验表明,我们的方法改进了抓住其组件未被端到端学习的系统,包括使用边界框检测的基线方法。此外,我们表明,共同训练我们的模型与由非语义掌握数据组成的辅助数据,以及没有掌握动作的语义标签图像,有可能大大提高语义掌握性能。