网站建设 logo,营口建网站,微信营销和微博营销的区别,汽车网络营销分析报告23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。
本文提出一种可扩展、自下而上且本质多样化的数据收集方案#xff0c;该方案可用于长期和中期的高级推理#xff0c;与传统的狭窄自上而下的逐步收集相比#xff0c…23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。
本文提出一种可扩展、自下而上且本质多样化的数据收集方案该方案可用于长期和中期的高级推理与传统的狭窄自上而下的逐步收集相比其吞吐量提高 2.2 倍。通过在 3 栋办公楼内执行任何用户请求并使用多种具身机器人、人类、带抓取工具的人类来收集真实数据。通过这些数据表明在所有具身上训练的模型比仅在机器人数据上训练的模型表现更好即使仅对机器人episodes进行评估也是如此。 其探索收集成本的经济性发现对于固定的预算利用更便宜的人工收集和机器人收集是有益的。本文发布一个大型且高度多样化29,520 条唯一指令的数据集称为 RoboVQA包含 829,502 个视频文本对用于以机器人为中心的视觉问答。其还展示如何通过评估具有干预机制的真实机器人实验来实现任务的完成使其即使不完善也可以在人工监督下部署同时还提供单一的性能指标。
本文展示一个基于数据集训练的单一视频条件模型 RoboVQA-VideoCoCa该模型能够在广泛的现实环境中执行各种落地的高级推理任务认知干预率比零样本视觉-语言模型 (VLM) 基线低 46%并且能够引导真实机器人完成长远任务。与零样本模型的性能差距表明还需要收集大量落地的数据才能用于现实世界的部署这强调对可扩展数据收集方法的迫切需求。视频 VLM 在所有 VQA 任务中的平均错误率降低 19%明显优于单图像 VLM。由于视频条件和数据集的多样性该模型可以用作需要识别动作而不是状态情况下的一般视频价值函数例如成功和可affordance从而扩展机器人的能力和环境理解。
数据
收集和数据集如图所示从用户请求到 VQA 任务生成的收集过程。从 3 栋办公楼和 3 个具身中的所有长期任务中收集 episodes从而产生 238 小时的视频10 天、5,246 个长期 episodes 和 92,948 个中期 episodes 。平均长期 episodes 持续 102 秒中期 episodes 平均持续 14 秒。在实验中对自由格式文本答案的评估是由人类执行的因此故意将验证和测试集保持在较小的规模每个大约有 1,000 个 VQA 条目每个来自 50 个 episodes。虽然训练和验证/测试之间的场景可能会重叠但 episodes 没有重叠。 任务多样性为了确保数据集和基准不会过拟合特定环境、领域或任务收集广泛任务的示例而传统的收集方式 [5] 中研究人员和工程师会以自上而下的方式提前确定一个固定的小任务列表。在此选择自下而上的方法其中大量任务由用户和遥操作员众包。这有利于广度和更好地与来自真实用户的请求分布保持一致。这导致任务多样性高26,798 个独特的中期指令2,722 个独特的长期指令。
吞吐量和成本如图所示大部分吞吐量增益来自以连续方式收集的中期 episodes而无需重置场景或机器人。注事后标记过程可以通过众包并行化如果并行执行则不会影响吞吐量但它仍然是收集预算中的一项成本。然而VQA 任务是免费生成的它利用已知的过去和未来任务序列并根据不同的已知语义点例如在执行中期任务之前或之后及时定位问题。
思维链将高级目标分解为定义的任务使机器人能够在执行长期规划时体现其思维过程。此外这些任务以自然语言问题和答案的形式提供可以看作是一系列视觉问答 (VQA) 步骤。这种表述类似于语言模型提示的思维链 [6]。同时进行的工作有[7]它表明模仿一步步的人类思维可以提高规划准确性。
模型
RoboVQA-VideoCoCa
训练一个名为 RoboVQA-VideoCoCa 的新模型该模型源自 VideoCoCa 模型 [8]这是一个扩展 CoCa [9] 的视频-语言模型。它使用一种编码器-解码器架构结合视频和文本模态之间的对比预训练如 CLIP [10]和生成预训练如 SimVLM [11]。除非另有说明用一个 383M 参数的 VideoCoCa 基础模型其初始检查点在图像字幕任务上进行训练并在 RoboVQA 视频文本数据集上视觉问题方面的重要性并发现视频条件的实质性好处。
基线
为了与微调模型进行比较考虑以下最先进的基线它们在视觉问答和机器人规划方面具有类似的功能。
PaLM-E [3] 是一个基于预训练的 ViT [12] 和 PaLM [2] LLM 模型构建的视觉语言模型它将图像投影到预训练的 LLM 的标记嵌入空间中。 规划方法。尝试四种基线规划方法其中两种使用 RoboVQA-VideoCoCa 和 PaLM-E零样本作为端到端规划模型。作为另外两个基线采用 SayCan [5] 和 Grounded Decoding [13] 的方法它们使用纯文本 LLMPaLM [2]进行短语级或 token 级解码由视觉 affordance 函数引导使用 RoboVQA-VideoCoCa 作为 affordance 的视频价值函数。
基准
VQA 基准
我们首先评估模型在各个任务上的表现其中每个任务由一个视频片段和一个问题组成。使用精确匹配将推理结果与存储在中央数据库中先前人工评估结果进行比较以确定视频问题对的正确/不正确。然后收集未找到匹配的推理结果供人工评估者评估。在评估过程中向人工评估者展示与模型呈现的精确视频片段和问题。要求评估者将模型生成的答案标记为正确或不正确在这种情况下评估者可以提出正确答案。所有答案都添加到数据库中并相应地标记每个答案的正确性。
带干预的规划基准
干预如图所示提出 3 种不同的长期规划评估。每个评估都通过干预率来衡量将其进一步分解为高级文本域的认知和低级运动命令域的物理。然而所有进展都可以用平均认知和物理速率的单一干预率来衡量。当物理动作是遥操作100% 物理干预时这种区别很有用可以将高级评估与低级评估分离开来。由于 RoboVQA 数据集非常广泛且多样化需要一个可以测试整个范围的评估程序。然而当前的低级策略往往只在非常狭窄的领域中执行因此这种解耦能够在评估 #1 和 #2 中测试所有任务。 离线视频结果在评估 #1 中在来自 RoboVQA 数据集的 100 个长期 episodes机器人和人类上运行模型总共有 854 个规划步。模型被赋予长期指令需要输出中期规划这些计划由人类评分。注SayCan 和 Grounded Decoding 基线的推理时间很慢这使得它们不适合在实时环境中运行因此未在其他评估中显示。同样PaLM-E 562B 模型的推理时间对于实时来说太慢30 秒因此在这里使用较小的版本。注尽管模型小了 30 倍但它的性能比最先进的模型高出 46%。