2023年前
An Analysis of Visual Question Answering Algorithms(2017)
背景:现有的内容和算法评估方式都存在缺陷。因此,评估分数被夸大,并且主要通过回答较简单的问题来确定,这使得很难比较不同的方法
提出:1.超过 160 万个问题,分为 12 个不同的类别。
2. 对于给定图像毫无意义的问题,以强制 VQA 系统推理图像内容。
个人总结:提出新的评估指标解决数据集的偏差问题,将问题分不同类型(例如颜色和空间推理根据计算的复杂程度不同得出的结果应该也不一样),算法能否区分荒谬问题和真实问题,
背景和方法:在 3D 环境中的随机位置生成一个代理并提出一个问题(“汽车是什么颜色的?”)。为了回答,代理必须首先智能地导航以探索环境,通过第一人称(自我中心)视觉收集信息,然后回答问题(“橙色”)。
感知环境(通过视觉、听觉或其他传感器)、进行交流(即基于环境进行自然语言对话)和采取行动(例如通过在虚拟或具体环境中执行 API 调用或命令来帮助人类)的智能代理。
从视障人士的辅助对话代理,到与自动驾驶汽车、家用机器人和个人助理的自然语言交互。
VQA:视觉 + 语言。与 EmbodiedQA 一样,图像和视频问答任务 [11–15] 需要对有关视觉内容的自然语言问题进行推理。关键区别在于缺乏控制 - 这些任务为回答代理提供了固定的环境视图(即来自某个固定轨迹的一个或多个图像),代理必须从中回答问题,而不允许代理主动感知。相比之下,EmbodiedQA 代理可以控制其轨迹和命运,无论好坏。这项任务比 VQA 难得多(即大多数随机路径都是无用的),但代理可以灵活地避免混淆观点并寻求视觉输入,以最大限度地提高答案的可信度。
个人总结:模拟真实的人可以自由行动,查看周围事物并回答问题。
可以用作的应用:视障人士对话代理,自动驾驶,家用机器人,个人助理。
实例:House3D
困难点:需要机器人移动并主动识别有效的视觉信息。
背景和方法:
问题:虽然 VQA 在人机交互方面迈出了重要一步,但它仍然只代表了一轮对话——与人类对话不同,它没有后续问题的余地。
方法:给定一张图像、一段对话历史和关于该图像的问题,代理必须将问题建立在图像中,从历史中推断背景,并准确回答问题。开发了一种新颖的双人聊天数据收集协议来管理大规模视觉对话数据集。
要求 AI 代理对一组候选答案进行排序,并根据人类响应的平均倒数排名等指标进行评估。我们通过人类研究量化了机器和人类在 Visual Dialog 任务上的表现差距。
我们相信下一代视觉智能系统需要具备以自然语言与人类就视觉内容进行有意义的对话的能力。应用包括:
• 帮助视障用户了解周围环境 [7] 或社交媒体内容 [66](人工智能:“约翰刚刚上传了一张他在夏威夷度假的照片”,人类:“太好了,他在海滩吗?”,人工智能:“不,在山上”)。
• 帮助分析师根据大量监控数据做出决策(人类:“上周有人进入这个房间吗?”,人工智能:“是的,摄像头记录了 27 个实例”,人类:“他们中有谁带着黑色包吗?”)
与 AI 助手互动(人类:“Alexa - 你能在婴儿监视器中看到婴儿吗?”,AI:“是的,我可以”,
人类:“他在睡觉还是在玩耍?”)。
使用 iOS 设备上的屏幕阅读器的用户在 Facebook 上滑动浏览照片时会听到照片可能包含的项目列表。
视觉对话中的具体任务如下:给定一个图像 I、一个由一系列问答对组成的对话历史(Q1:“有多少人坐在轮椅上?”,A1:“两个”,Q2:“他们的性别是什么?”,A2:“一个男性和一个女性”),以及一个自然语言后续问题(Q3:“哪一个拿着球拍?”),机器的任务是以自由形式的自然语言回答问题(A3:“女人”)。
记忆网络:将每个先前的 QA 对视为其记忆库中的“事实”,并学习“轮询”存储的事实和图像以开发上下文向量。
一种基于检索的评估协议,其中要求 AI 代理对候选答案列表进行排序,并根据人类响应的平均倒数等级等指标进行评估。
个人总结:提示了历史对话的方法,关于候选答案的评估,创建了视觉聊天机器人。
视觉应用的下一个理想步骤是让盲人能够以自然的方式直接询问他/她想了解周围的物理世界。这个想法与最近人们对视觉问答 (VQA) 问题的兴趣激增有关,该问题旨在准确回答有关任何图像的任何问题。