保定网站建设团队,网站的版式设计,广州印刷网站建设,微信公众号分销系统我自己的原文哦~ https://blog.51cto.com/whaosoft/13320191
#毫末最新OAD
轨迹偏移学习助力端到端新SOTA~
端到端自动驾驶技术在近年来取得了显著进展。在本研究中#xff0c;我们提出了轨迹偏移学习#xff0c;将传统的直接预测自车轨迹#xff0c;转换为预测相对于…我自己的原文哦~ https://blog.51cto.com/whaosoft/13320191
#毫末最新OAD
轨迹偏移学习助力端到端新SOTA~
端到端自动驾驶技术在近年来取得了显著进展。在本研究中我们提出了轨迹偏移学习将传统的直接预测自车轨迹转换为预测相对于轨迹锚点的偏移降低模型学习的难度。与baseline模型相比该方法显著提高了规划精度和安全性在nuScenes上将L2 error降低了39.7%从0.78m降至0.47m并将碰撞率降低了84.2%从0.38%降至0.06%。此外OAD展示了生成多样化、多模轨迹的能力增强了其对复杂驾驶场景的适应性。
技术报告和可视化内容参考项目主页https://wzn-cv.github.io/OAD
简介
本报告在VAD框架的基础上构建了更强大的基线模型。具体而言我们通过实证验证了几种明确且有效的技术包括与鸟瞰视角BEV的交互、指令插入位置。此外我们设计了一种创新的方法利用轨迹词汇表来学习偏移量而非直接学习轨迹。
OAD算法核心 与BEV的交互 在规划模块中VAD仅设计了自车查询ego query与Agent查询agent queries和地图查询map queries之间的交互其中并未涉及BEV特征如图2(a)所示。这导致自车查询只能感知结构化的障碍物和地图信息而无法捕捉周围环境的丰富特征和全面信息。受UniAD的启发我们将自车查询与BEV特征进行关联从而使系统能够更好地理解和感知其周围环境。
此外对于每个高级指令high-level commandVAD使用一个对应的多层感知机MLP头来输出轨迹。我们认为这种设计可能导致参数冗余。因此我们引入了高级指令嵌入作为条件输入使所有高级指令共享一个单一的MLP头进行轨迹解码。
高级指令插入位置
在UniAD中高级指令仅在自车查询与密集BEV特征进行交叉注意力cross-attention之前被引入。我们认为高级指令不仅应在与BEV的交叉注意力之前引入还应在轨迹解码MLP之前引入。前者使自车能够更加关注与高级指令相对应的区域从而降低碰撞率后者则使轨迹解码器能够显式捕捉未来方向从而减少位移误差。因此我们在两个位置都引入了高级指令嵌入如图2(b)所示。
学习轨迹偏移量
我们认可VADv2和Hydra-MDP中采用的理念即构建一个固定的规划词汇表以降低规划的复杂性。略微不同的是我们采用了在线K-means进行词汇表学习这使得实现更为简单。
更重要的是我们认为基于该规划词汇表学习偏移量而非直接学习轨迹可以带来更高的有效性。这种方法受到目标检测领域工作的启发其中学习相对于锚框anchor boxes的偏移量。
具体设计如图2(b)所示。自车查询结合轨迹锚点嵌入和高级指令在关联Agent查询、地图查询和BEV特征后学习偏移量可表述如下
其中 表示自车查询 是一个可学习参数表示规划词汇表中第 条轨迹的锚点嵌入。
在训练过程中从词汇表中选择具有最低偏移量的轨迹来计算损失
其中 表示最终位移误差。总训练目标为
其中表示真实自车轨迹 表示规划词汇表中的第条轨迹并作为轨迹锚点表示模仿损失表示用于学习的承诺损失
其中 表示停止梯度操作符。
在推理过程中选择最接近 的 来解码规划轨迹
在此我们使用的超参数为词汇表大小30。
实验结果分析相关配置
本文采用的基线模型是VAD-Tiny其具有100×100的鸟瞰图BEV查询。为清晰简洁起见在本论文中VAD-Tiny统一简称为VAD。与VAD一致我们的研究也使用了nuScenes数据集。在评估方面位移误差DE和碰撞率CR被用于全面评估规划性能。需要注意的是在所有实验中我们有意不将自车状态作为输入数据以避免开环规划中的捷径学习。在训练过程中我们使用8块NVIDIA A100 GPU并遵循VAD的优化调度器。我们进行了超参调整总批次大小为32、初始学习率为4×10⁻⁴时可实现最佳性能。
定量结果
上述方法的定量结果汇总于表1。显然每项设计都带来了显著的性能提升。 定性结果
我们对OAD和VAD进行定性比较以说明改进措施的有效性如图3所示。可视化结果表明OAD能够在复杂场景中实现更好的轨迹规划。在图a和e中即使在夜间条件下OAD在接近前车时也能通过制动展现出避撞能力。在图c中OAD成功识别出前方车辆VAD未能识别从而避免了直线行驶有效降低了碰撞风险。在路口转弯场景中与VAD相比OAD生成的轨迹更平滑、更合理在图b、d和f中降低了驾驶风险。利用轨迹词汇表OAD天然具备多模态规划能力如图4所示。这为下游任务提供了更大的潜力。 结论
在本研究中我们提出了对VAD框架的多项改进特别聚焦于学习相对于规划词汇表的偏移量。定量结果和定性结果均表明了这些改进的有效性。我们将持续提出新的优化措施以实现更卓越的端到端规划性能。闭环评估也将成为我们未来工作的一部分。 #GEVRM
西湖大学最新极大扩展VLA部署的可靠和稳健性~
随着快速发展用于通用机器人决策的视觉-语言-动作VLA模型取得了显著进展。然而现有的大多数VLA模型未能考虑到在部署过程中不可避免的外部扰动。这些扰动给VLA模型带来了不可预见的状态信息导致动作不准确进而使泛化性能大幅下降。经典的内模控制IMC原理表明具有包含外部输入信号的内模的闭环系统可以准确跟踪参考输入并有效抵消干扰。这里提出了一种新颖的闭环VLA方法GEVRM该方法集成了IMC原理以增强机器人视觉操作的稳健性。GEVRM中的文本引导视频生成模型可以生成高度表达性的未来视觉规划目标。同时我们通过模拟响应来评估扰动这些响应称为内部嵌入并通过原型对比学习进行优化。这使得模型能够隐含地推断和区分来自外部环境的扰动。所提出的GEVRM在标准和受扰动的CALVIN基准测试中均实现了最先进的性能并且在实际机器人任务中显示出显著的改进。
领域介绍
追求稳健且适应性强的机器人系统是具身通用智能的基石。最近随着大规模机器人数据收集、通用状态表示学习以及表达性策略学习的成功推进机器人视觉-语言-动作VLA模型的研究取得了重大进展。上述策略已被证明在从物理模拟器到精心设计的现实世界环境等各种环境中对估计机器人状态和生成稳健动作是有效的。然而这些精心设计的环境并未考虑到部署过程中不可避免的外部扰动例如光照条件的波动或由于信号传输问题导致的视频流噪声。当VLA模型部署在这些非理想环境中时外部扰动会给机器人带来不可预测的状态信息。这使得VLA在不准确的环境状态下产生脆弱且不稳定的动作导致其泛化性能显著下降。因此增强VLA模型的稳健性以应对部署时不可避免的外部扰动是一个持续的挑战。
在计算机视觉和强化学习领域图像增强是一种常见的技术用于缓解模型过拟合问题、抵抗输入图像的扰动并增强模型的稳健性。其思想是对模型的输入图像应用任务标签不变的变换。例如对于物体识别任务图像翻转和旋转不会改变语义标签。因此这项技术也已应用于机器人视觉语言操作任务。一些先前的工作利用视觉作为通用媒介开发了能够通过想象和执行来规划各种任务的特定智能体。这些方法涉及使用生成模型来预测未来视频或目标图像然后是将视觉计划转化为实际动作的目标条件策略。在训练目标条件策略时利用了图像增强技术这在一定程度上缓解了策略对特定任务的过拟合。然而这些模型受到其生成能力的限制它们生成的未来目标图像或视频状态表达不够充分并且图像增强仅允许模型在狭窄的任务分布内进行泛化。它对环境扰动缺乏强大的弹性难以在不同的任务场景中产生始终有效的动作。 受到图1a所示的经典内模控制IMC原理的启发。该原理的核心思想是在闭环控制系统中通过在控制器内部构建一个能够模拟外部扰动和参考输入的模型可以准确跟踪期望输出并有效抵消扰动。也就是说它利用内模来复制系统的行为随后评估系统的扰动从而增强闭环稳定性。人们普遍认为智能哺乳动物也依赖内模来产生它们的动作并且这种机制也得到了行为学、神经生理学和成像数据的揭示和支持。更重要的是将内模集成到机器人控制系统中已被证实可以增强机器人运动控制的稳健性。然而结果仅限于特定场景难以扩展到更复杂和通用的任务如视觉语言操作。如何在VLA框架中实例化内模以提高决策动作的稳健性尚未得到探索。
为此我们提出了GEVRM一种用于稳健视觉操作的目标表达视频生成模型。如图1b所示为了在VLA模型中有效地实现经典的IMC原理我们对方法的一些组件进行了相应调整。
目标生成将视频帧作为描述机器人状态的通用接口我们引入一种先进的文本引导视频扩散生成模型作为机器人行为规划器以生成未来目标帧作为参考输入。为了提高未来目标状态的表达性我们通过高效的视频时空压缩和随机掩码策略来训练视觉规划器以优先理解物理世界规律和物体的3D一致性。
状态对齐我们利用机器人的模拟响应来估计系统扰动。这些响应称为内部嵌入是从机器人状态中提取的。由于响应固有地嵌入在机器人的历史观测中因此可以通过原型对比学习来优化内部嵌入以使机器人未来的表达性目标状态与当前状态对齐。这使模型能够隐含地推断和区分来自外部环境的扰动。
目标引导策略我们提出一种以生成的高度表达性目标为条件的扩散策略以更好地对机器人操作的多模态任务分布进行建模。该策略和上述内部嵌入通过逆动力学和对比学习目标进行联合优化以便即使在存在扰动的情况下也能很好地跟踪高度表达性目标。
贡献有三个方面
引入了GEVRM这是一种新颖的稳健VLA模型它结合了IMC原理来增强机器人视觉操作。研究了如何使用文本引导视频生成模型获得高度表达性的目标并通过原型对比学习对齐状态表示以抵抗部署时的外部扰动。大量实验验证了所提出的GEVRM的有效性和先进性。它在标准和外部扰动的CALVIN基准测试中显著优于先前的最先进方法。与以前的基线方法相比在实际视觉操作中生成的目标状态的表达性显著提高。
相关工作视觉-语言-动作模型
随着广泛的多任务机器人数据集的兴起机器人学界越来越关注多任务执行能力。视觉-语言-动作模型因其能够使用语言作为目标命令使机器人能够基于视觉感知做出明智决策而受到关注。早期研究利用语言和视觉之间的跨模态注意力但有限的模型性能阻碍了其有效性。最近注意力转向了大型基础模型以提高通用性。然而文本描述往往缺乏关于环境状态的细节这使得跨形态任务变得复杂。因此一些研究现在利用视觉作为通用媒介采用生成模型来预测未来动作然后通过目标条件策略来执行。UniPi是最早利用互联网规模数据训练文本条件视频生成器的模型之一它使用逆动力学模型来估计动作。同样SuSIE使用图像编辑模型为低级控制器规划高级子目标而ADVC从具有密集对应关系的预测视频内容中推断动作。这些努力旨在实现通用状态表示但由于两个原因而未能成功。首先由于动力学建模不佳现有的视觉计划存在时间和空间不一致性。我们提出了一种稳健的视频生成模型来解决这个问题并增强动作执行。其次先前的工作侧重于受控环境忽略了机器人对外部干扰的响应。我们的GEVRM方法采用对比学习进行状态对齐有效地模拟响应并抵抗干扰。这些元素共同定义了我们富有表达力的目标表示。
内模控制框架
IMC框架是一种广泛认可的控制策略它利用系统的内模来预测未来行为并相应地调整控制动作使其对干扰和模型不准确性具有高度的鲁棒性。IMC由Garcia和Morari首次提出已广泛应用于线性和非线性过程控制中在稳定性和适应性方面具有显著优势。其反馈机制允许进行实时调整这在诸如机器人技术等对精度要求极高的动态环境中尤为重要。IMC的设计已针对多变量和复杂系统进行了进一步探索和改进证明了其在各种控制应用中的通用性和鲁棒性。然而以前的大多数研究工作都局限于特定的控制场景难以扩展到一般的视觉语言操作任务。最近受经典闭环控制系统的启发有人提出了一种闭环视觉运动控制框架该框架结合了反馈机制来改进自适应机器人控制。与这些工作不同我们研究如何在VLA框架中有效地实例化内模以提高决策动作的稳健性。
问题公式化
这项工作研究如何生成高度表达性的目标状态并诱导稳健的动作以抵御外部干扰。正式地在非马尔可夫决策过程框架中研究机器人轨迹和动作生成该框架由以下元组指定其中和分别表示图像状态和动作空间表示语言文本目标空间是转移动力学是初始图像状态分布。我们旨在生成富有表达力的未来图像目标状态以及在视觉操作任务中根据抽象语言指令和历史图像序列状态即视频要执行的当前动作 。该问题被分解为两个层次
机器人行为规划给定语言指令和历史视频状态推断图像目标状态。机器人动作预测给定历史和推断出的富有表达力的未来图像目标状态预测要执行的当前动作。
这种解耦过程可以表示为 这种解耦过程极大地降低了模型训练对语言、图像序列和机器人动作对的依赖。行为轨迹规划模型的训练只需要文本-视频对而无需机器人动作标签这些数据可以从互联网上带有语言标签的大规模视频片段和带有文本注释的机器人序列决策数据中获得。的训练只需要少量针对特定下游任务的无语言标签的演示数据。在测试阶段给定新任务的自然语言描述和初始图像状态我们不仅需要评估模型推断的未来目标状态的表达力还需要评估在外部扰动下完成任务的成功率。
方法介绍
我们的目标是构建一个稳健的VLA模型将IMC概念融入机器人视觉运动控制中如图2所示。为了在执行前设定高度表达性的目标引入一个强大的视频生成模型作为视觉规划器。下面也会详细介绍如何对齐目标状态以评估扰动并展示如何诱导生成稳健的决策动作。最后实现GEVRM的整体测试时执行流程。 机器人行为规划器
受近期视频生成模型成功的启发我们寻求构建一个文本引导的视频扩散变压器模型作为用于生成机器人目标状态的行为规划器。该规划器可以根据历史视频观察和抽象的文本任务描述忠实地合成未来目标图像帧。通过视频生成进行规划需要一个既能从给定视频生成受限视频又能完成下游任务的模型。具体来说为了获得高度表达性的未来目标状态在设计机器人行为规划器时需要考虑三个核心方面
视频时空压缩扩散变压器DiT需要大量计算资源才能在原生像素空间中对机器人图像状态序列数据执行复杂操作。为了缓解这个问题首先使用2D变分自动编码器VAE压缩原始像素空间然后使用3D VAE进一步压缩以获得信息丰富的低维密集空间。这样做的好处是避免了3D VAE在原始像素空间中的高计算成本。实际上在2D VAE进行空间压缩后相邻特征之间仍然存在相当大的时间相关性。在图像状态序列编码阶段最初通过应用2D VAE将空间维度减少8×8倍随后通过3D VAE将时间维度压缩4倍。在图像状态序列解码阶段先恢复时间维度再恢复空间维度。3D VAE采用因果3D卷积层代替3D卷积神经网络CNNs确保每一帧的输出仅取决于其前序帧。随机掩码机制为了实现高效的目标图像合成实施了一种随机掩码机制。训练过程涉及对帧进行随机掩码包括揭示初始帧、前帧、最后一帧、后帧、初始帧和最后帧的组合以及任意帧等场景。在测试阶段我们可以访问历史图像状态但无法获取未来图像状态。因此在模型的训练方案中对前帧的掩码操作被赋予最大权重具体为75%。其余的掩码策略被归类为补充目标共同构成剩余的25%。虽然掩码机制在概念上很简单但它使机器人行为规划器能够根据各种时间快照预测后续帧显著增强了模型对物体动力学和时间顺序相关性的理解和感知。模型骨干和训练DiT模块源自一个预训练的文本引导视频生成模型并集成了一个固定的T5编码器来处理语言指令。受Stable Diffusion 3最新进展的启发我们使用整流流对机器人行为规划器进行微调超越了传统的去噪扩散概率模型DDPM。整流流通过沿着样本之间的直线路径求解常微分方程促进了从噪声到真实图像分布的映射学习。这种方法已被证明是一种更高效的训练范式显著减少了视频采样步骤进而显著提高了模型训练速度并减少了推理时间。
机器人动作预测
机器人行为规划器生成的高表达性目标状态用于指导决策动作的预测。从视觉目标状态和当前视觉状态到最终动作的输出我们的目标导向策略可分为以下两个部分1状态对齐以模拟响应。从视觉目标状态和当前视觉状态中提取有价值的特征并利用原型对比学习来对齐状态表示、模拟机器人响应以及评估干扰。2目标导向动作预测。将目标和当前内部紧凑编码信号解码为机器人能够稳健执行的动作。
状态对齐以模拟响应在经典控制系统领域IMC框架要求在控制器中集成系统的内部模型。这个内部模型能够抵消外部干扰和参考输入从而确保系统行为的精确性和可靠性。为了在基于学习的框架中实现IMC原理我们首先部署残差网络ResNet 34作为目标状态和当前状态的视觉编码器。这种转换将原始像素数据转换为丰富的视觉表示和 。对于当前视觉状态表示关键在于如何对其进行优化以模拟机器人响应来评估外部扰动而这种响应本身就编码在视觉目标状态中。遵循IMC原理我们主张在潜在空间中对这一过程进行建模并通过对比学习进行优化以实现与视觉目标状态的对齐。
在演示数据中如果一对和来自同一轨迹它们就是正样本对否则为负样本对。这些样本对通过交换分配的任务进行优化。具体来说给定从演示数据中采样的图像观察序列可以从转换过程中推导出未来目标图像作为目标向量将当前图像观察作为源向量。源向量和目标向量分别输入到源编码器和目标编码器中以获得潜在特征这些潜在特征被映射到高维空间的单位球面上并进行归一化
为了从潜在特征预测聚类分配概率和我们首先对原型进行归一化以获得可训练的归一化矩阵然后对所有原型的源向量或目标向量的点积取soft maximum
这里是温度参数。和是当前和目标图像观察和映射到索引为的单个聚类的预测概率。为了在避免平凡解的同时获得预测概率和应用Sinkhorn-Knoppal算法。现在我们有了聚类分配预测和目标状态对齐的目标是最大化预测准确率
值得注意的是学习表示以区分不同的指令和视觉表示是一个长期存在的科学问题而很少有研究探索它们模拟机器人响应的能力。这种能力在预训练的视觉编码器或仅基于当前观察学习的策略模型即行为克隆中无法直接获得。
目标导向动作预测为了使模型简洁、通用且具有可扩展性利用目标导向扩散策略从模拟响应的状态编码中解码动作输出。仅使用静态相机的第三视角RGB图像作为输入并将动作标签作为训练标签。不使用机器人本体感受观察和夹爪视角图像。考虑一个7自由度机器人的动作空间由末端执行器的位置和夹爪状态组成。目标导向扩散策略是一个使用马尔可夫噪声和去噪过程的潜在变量模型可用于为潜在变量建模参数化行为分布 。前向噪声过程遵循固定的方差调度其分布为 。遵循DDPM我们的实际实现包括直接参数化分数网络以恢复行为克隆目标
利用这个目标来训练目标导向策略并为其提供目标和当前状态的内部嵌入。在每次策略训练迭代中状态编码通过状态对齐目标进行优化这使得策略能够隐含地推断和区分来自外部环境的扰动。因此状态编码和目标导向扩散策略的最终优化目标是
其中是温度参数。为了从中采样使用反向扩散过程其中且并在每一步进行重采样
GEVRM的测试阶段执行流程
一旦机器人行为规划器和目标导向策略都训练完成它们就可以用于解决新的操作任务。给定一个新场景和一个新的语言命令GEVRM通过迭代生成高度表达性的目标状态并诱导目标导向策略来实现这些子目标从而尝试解决任务。最初我们从中采样一组目标其中表示目标状态生成的数量。我们将目标状态和当前状态通过状态编码器经过个时间步以获得内部嵌入并推导出目标导向策略其中是固定的时间间隔数。在个时间步之后我们再次从行为规划器中采样来更新目标状态并重复该过程。算法的测试执行过程如算法1所示。 实验评估
这里我们评估GEVRM的状态生成和视觉操作能力。为此实验旨在研究以下问题1GEVRM在各种环境中是否具有强大的泛化能力以生成富有表达力的目标2与基线相比GEVRM在各种环境中执行机器人任务的成功率是否更高3GEVRM的核心组件对于实现稳健的决策动作有多重要
目标生成评估
设置使用两种类型的数据集真实的Bridge和模拟的CALVIN来评估目标生成的泛化能力。在预定义的训练集上训练模型并在有和没有外部扰动的测试集上评估机器人目标生成性能。基线为了进行公平比较选择了开源视频生成模型1AVDC一种典型的用于机器人的扩散式生成模型。2GR-1这是一种自回归式生成模型它将语言指令和状态序列作为输入并以端到端的方式预测机器人动作和未来图像。3SuSIE使用图像编辑扩散模型作为高级规划器并提出可以由低级控制器实现的中间子目标。指标所采用的评估指标是弗雷歇初始距离FID和弗雷歇视频距离FVD这两个指标在图像和视频生成领域都得到了广泛认可。我们还使用其他标准指标评估不同模型生成视频的质量结构相似性指数SSIM、峰值信噪比PSNR、学习感知图像块相似性LPIPS。目标生成比较在未见环境中评估目标生成的泛化能力表1。结果表明与基线相比GEVRM模型性能显著提升。结果表明GEVRM具有更强的表达能力能够有效地对机器人图像序列的复杂纹理和时间连贯性进行建模。然后在比较在受扰动环境中目标生成的稳健性图3时基线模型在环境变化时表现不佳生成的严重幻觉会扭曲物体甚至可能完全破坏场景。相比之下我们的方法产生的幻觉较少并且能够根据语言指令生成富有表达力的目标状态。这证实了GEVRM确实能够更好地理解物理世界的规律并保持物体的3D一致性。 动作执行评估
设置在CALVIN上进行实验CALVIN是一个用于语言条件操作的基准测试用于评估GEVRM在闭环动作执行方面的能力。CALVIN由四个模拟环境A、B、C和D组成每个环境都有一个人类收集的演示轨迹数据集。我们研究在A、B和C环境上进行零样本多环境训练并在D环境上进行测试D环境在桌面纹理、家具位置和彩色补丁方面有所不同。我们还测试了GEVRM对扰动的稳健性图4。基线选择具有代表性的基线来验证在标准未见环境上的泛化性能1UniPi首先将决策制定转化为文本条件视频生成能够生成预测视频序列并随后提取控制动作。2HiP该模型通过结合分层推理扩展了长期规划能力改进了UniPi。3GR-1该模型利用预训练的视频模型来增强自回归动作生成。4RoboFlamingo使用预训练的视觉语言模型进行单步视觉语言理解并使用显式策略头对顺序历史信息进行建模。此外在有外部扰动的测试环境中我们选择具有代表性的基线SuSIE因为它采用常见的数据增强策略来应对扰动并且在先前的工作中取得了最先进的结果。将静态相机的第三视角RGB图像作为观察值这使得机器人的执行更具挑战性。动作执行比较在表2中展示了完成链中每个语言指令的成功率。模型在环境A、B和C上进行训练图4a在D环境上进行测试图4b。与基线相比GEVRM有显著的性能提升。这表明基于IMC原理的方法在面对新环境时具有更好的目标生成能力并能诱导机器人预测更通用的决策动作。外部扰动下的动作执行比较为了全面评估提出的GEVRM与基线SuSIE的性能在五个更具挑战性的场景中对两个模型进行了测试图4c。五个受扰动任务的平均性能如表3所示。这些场景旨在挑战模型对环境刺激的感知和对物理定律的理解。结果表明GEVRM能够很好地模拟机器人响应并指导策略生成稳健的决策动作以抵抗外部扰动。更多动作执行比较结果见附录表5。 消融研究
我们评估VAE微调与状态对齐应用对CALVIN环境A、B和C上模型性能的影响重点关注机器人行为规划和目标导向策略训练。图5a中的结果表明省略VAE微调或状态对齐集成会显著降低模型在CALVIN环境D上的性能这是因为VAE在多样化视频数据上的预训练增强了时空一致性随后在机器人数据上的微调有助于决策的泛化。状态对齐增强了策略的视觉状态表示以实现更好的任务泛化。此外在策略训练中平衡专家模仿和状态对齐的超参数我们测试了五个值图5b。性能指标变化很小表明对的调整具有鲁棒性对我们的方法来说是最优的。为了说明状态对齐对目标导向表示的影响我们进行了一项视觉比较实验。使用T-SNE分析在CALVIN ABC→D “噪声干扰” 任务中有无状态对齐时当前和未来图像状态的潜在空间表示结果如图6和附录图8所示。结果表明状态对齐通过增强类内凝聚性和类间分离性来改进聚类和分类。此外状态对齐确保了图像状态序列的时间一致性从而增强了策略对环境和任务的识别能力并有助于泛化到新场景。目标生成和目标导向扩散策略执行效率的消融实验分别见附录表6和表7。 最后的结论
方法的创新之处在于能够将经典的内模控制原理融入现代VLA框架从而增强机器人处理环境扰动的能力并保持性能的完整性。在提出的稳健GEVRM模型中利用视频生成模型获得高度表达性的目标状态。同时基于原型对比学习有效地对齐状态表示以模拟机器人响应并评估外部扰动。正如GEVRM在模拟和现实视觉操作任务中的最先进性能所示它有效地增强了目标状态的表达性并对外部扰动表现出很强的弹性。因此工作极大地扩展了机器人系统在部署场景中的可靠性和稳健性是具身通用智能领域向前迈出的重要一步。一项有前景的工作是考虑将更通用的高质量视频生成模型纳入VLA框架以应对现实世界机器人复杂多样的操作任务。 #预测规划统一新框架
利用一致性模型的端到端预测规划器来了普林斯顿大学
一篇关于集成了自动驾驶预测和规划的最新算法框架文章。轨迹预测和规划是自动驾驶系统当中至关重要的两个组成部分。在早期的传统自动驾驶系统当中预测和规划属于是各自独立的模块这种范式限制了执行交互式规划的能力。因此本文我们提出了一个新颖的统一数据驱动框架将预测和规划与一致性模型相结合。我们提出的算法模型以更少的采样步骤实现了更好的性能使其更适合实时部署。
首先我们先介绍模块化预测和规划范式的问题。然后引出我们本文所提出算法模型的网络结构和细节。接下来是在WOMD数据集上的实验结果和指标分析最后是本文所得出的结论。
简介
为了在动态环境中安全高效地行驶自动驾驶汽车必须有效地预测并与各种道路参与者互动包括其他车辆和行人。这通常需要一个预测模块来预测其他代理的未来轨迹以及一个规划模块来为自车生成轨迹。虽然预测模块已广泛采用数据驱动的方法来从人类驾驶数据中学习但规划模块通常依赖于基于优化的方法。这两个模块通常以解耦、交替的方式运行。
但是这种解耦的方法引入了根本性的限制。规划器生成的交互行为本质上是被动的而不是主动的因为规划器响应其他代理而不考虑它们如何对自车做出反应。这种限制可能导致计算成本高昂的心理理论推理。在高度交互的场景中例如车道合并主动规划是必不可少的被动规划可能会导致自车卡住。现有的解决方案要么难以随着代理数量的增加而扩展要么由于对解决方案搜索空间的限制性探索而损害了最优性。
此外模块化方法可以独立优化预测和规划与联合训练的端到端框架相比这通常会导致效率降低。预测和规划模块之间的交替也引入了延迟和计算效率低下使得满足实时操作的需求变得具有挑战性。
近年来扩散模型被广泛应用于自动驾驶领域。它们对条件分布进行建模的能力使它们非常适合轨迹规划应用因为它允许结合规划和预测的关键背景包括轨迹历史、地图信息、自车的目标位置等。与 Transformer 模型相比基于扩散的方法还支持可控生成以仅在测试时通过引导采样来满足额外要求而无需任何额外的训练。然而扩散模型通常需要许多采样步骤才能获得高质量的样本这使得满足自动驾驶汽车实时操作的需求变得具有挑战性。
考虑到上述提到的相关问题在本文中我们提出了一种基于一致性模型的端到端预测规划器旨在在单一数据驱动框架内统一规划和预测。大量的实验表明我们提出的算法模型在Waymo Open Motion Dataset数据集上与现有各种方法相比在轨迹质量、约束满足和交互行为方面的优势。
论文链接https://arxiv.org/pdf/2502.08033
算法模型网络结构细节梳理Motion-Transformer Encoder
在本文中我们通过规划目标来规划自车的轨迹同时预测其他车辆的交互行为。为了将轨迹历史和地图信息编码为一致性模型的条件输入我们采用了 MTR 的编码器架构。这种基于 Transformer 的架构通过局部注意机制有效地对场景上下文进行建模从而实现代理与路线图之间的高效交互建模同时保持内存效率。它还引入了一个具有损失函数的密集预测头来单独训练此编码器。此外需要注意的是我们的方法是与编码器无关的允许灵活选择任何合适的场景编码器与我们基于一致性模型的预测规划器集成。
Consistency Model
一致性模型仅需一个或几个采样步骤就能从复杂分布中生成高质量样本。它由正向扩散过程和逆向扩散过程组成。假设是我们数据集中的轨迹我们首先使用在整个数据集上计算的平均值和标准差对中所有的轨迹进行标准化。
令为此类归一化轨迹的空间是数据分布。在前向过程中我们首先从中抽取初始样本。然后我们应用增加噪声的方式通过步来逐渐破坏。具体来说在每一步我们从正态分布中进行采样并且假设破坏的数据可以从下式子获得 我们通过选择足够大的噪声方式通过重复从数据中进行采样并通过加性高斯噪声进行破坏时进而得到相应的分布。
假设是条件信息空间。在逆向过程中我们的目标是学习一个具有参数的一致性函数该函数映射嘈杂的轨迹样本、条件以及噪声级别直接到相应的干净样本。这是通过选择特定的函数形式来实现的。 对于一致性模型训练我们的目标是加强输出在相邻采样步骤中的一致性。一致性训练通过最小化以下损失函数进行实现。 在数据生成过程中我们首先抽取样本。然后使用训练好的一致性模型。我们通过首先预测近似的干净数据然后从正态分布中抽样来进行迭代抽样。 在声明好上述的符号和所定义好的问题后下图展示了我们提出算法模型的整体网络结构。 具体而言我们首先使用MTR编码器对代理的轨迹历史和地图信息进行编码。然后我们使用一致性模型该模型采用自车代理的规划目标和MTR 编码特征的条件输入分别为自车和周围代理生成轨迹计划和预测。最后通过一致性模型的引导采样可以实现自我代理的额外规划约束。
Data pre-processing
为了训练扩散模型或一致性模型我们通常需要对输入数据进行规范化。如果我们联合建模自车和周围代理的未来轨迹使用以自车为中心的坐标系会在数据中引入很大的差异特别是对于在不同场景中位置差异很大的周围代理而言。因此训练性能会大大降低。相反我们应用类似于 MTR 的坐标变换将每个代理的轨迹映射到其自己的局部坐标系中以当前时间步的位置为中心。这种转换为我们提供了方差大幅降低的数据。然后我们计算整个数据集中转换后的轨迹的经验平均值和标准差并将它们标准化为零均值和单位方差。为了保留代理之间的相对空间关系我们收集由每个代理在时间步的位置组成的参考状态。
Consistency Model Training
令表示自车和周围的未来轨迹空间令表示条件输入的空间包含编码的历史轨迹、地图特征、自我代理的目标状态和参考坐标。给定一个规划目标和环境背景作为条件我们利用一致性模型从条件概率分布中抽取未来轨迹。每个轨迹样本代表自车和周围代理的一种可能的联合未来行为。
为了训练我们的预测规划器我们使用混合损失函数一步联合训练 MTR 编码器和一致性模型该函数由一致性训练损失和 MTR 编码器的密集预测损失的加权和构成。 Guided Sampling
在使用经过训练的一致性模型生成轨迹以对自车的未来轨迹施加规划约束时我们提出了一种类似于分类器引导的新型引导采样方法。重要的是这种引导仅在测试时的采样过程中应用而无需对训练程序进行任何修改。假设有个规划约束需要最小化并从分类器指导中汲取灵感我们可以在每个采样步骤中对预测执行梯度下降过程。 然而同时优化多个约束对于有效找到合适的步长提出了重大挑战特别是当约束可能相互冲突时。为了应对这一挑战受ADMM算法的启发我们提出了一种新颖的交替方向法该方法在每个采样步骤中一次仅优化一个约束 在我们的方法中我们按顺序优化每个约束并在每次梯度下降迭代期间使用相应的步长。虽然我们对优化顺序和相对较小步长的选择是基于经验观察的但这种策略在实践中已经证明了有效的收敛而使用梯度下降的标准指导方法很难实现。ADMM的收敛通常在包括封闭、适当和凸函数以及适当选择的步长的条件下得到保证。
Planning Constraints Construction
我们假设自车的动态用如下的形式进行表示 假设我们仅使用自车的未来状态中的和来构建我们的规划约束函数。因为其他状态如或可能不满足动力学方程而且也非常嘈杂。利用动态的微分平坦性我们可以推断出和。 然后我们可以进一步的推断控制输入 在有以及情况下我们考虑三种类型的规划约束以最小化如下。 实验结果及评价指标
我们将不同方法生成的规划轨迹与数据集中的真实轨迹进行比较。该场景要求自车进行左转然后直行以达到其目标地点如下图所示。 DDPM-4 达到了目标但产生了嘈杂的轨迹这可能是由于扩散模型的采样步骤不足以生成高质量的轨迹。虽然 DDPM-10 增加的采样步骤产生了稍微平滑的轨迹但代价是更长的计算时间。DDIM-4 尝试仅使用 4 个采样步骤来加速 DDPM-10但无法生成达到目标的轨迹。具有较大模型尺寸的 Transformer 生成的轨迹接近真实值但错过了准确的目标位置。相比之下我们的一致性模型生成的轨迹既与真实值一致又精确地到达目标位置。
我们通过 Waymo 运动预测挑战赛的指标定量评估了自我车辆相对于人类地面实况的规划性能如下表所示。 通过表格中的实验结果可以看出结果与我们的定性观察结果一致我们的一致性模型实现了最低的 minADE 和 minFDE表明它很好地捕捉了人类的驾驶模式。此外添加引导采样显著改善了一致性模型的 minFDE因为它明确地纳入了实现目标的约束。
此外我们使用三个表征驾驶行为的指标来评估轨迹质量如下表所示。 此外下图中展示了我们的方法在选择目标位置方面的灵活性。我们的一致性模型在瞄准新的目标位置时保持高质量的轨迹规划即使它们不在数据集中。 我们的预测规划器的一个关键优势是它能够确保与交通中的其他道路使用者安全有效地互动。我们的规划器展示了生成主动行为的能力如下图所示。 通过下表可以看出我们的基础一致性模型已经实现了比其他基于扩散的方法更准确的目标达成和更流畅的行为。 通过引导采样达到所有方法中的最低值。需要注意的是这种改进不需要模型重新训练并且仅适用于推理期间。
结论
在本文中我们提出了一种新颖的数据驱动方法该方法使用一致性模型统一了轨迹预测和规划。通过对自车和周围代理的轨迹的联合分布进行建模我们的方法可以实现高效和交互式的规划而无需在预测和规划模块之间进行迭代交替。实验结果表明与现有方法相比我们的方法实现了卓越的轨迹质量和交互行为同时需要更少的采样步骤。 #DenseSplat
五边形战士首个无缝结合NeRF和3DGS的SLAM系统3DGS对关键帧的依赖
视觉稠密同时定位与建图SLAM是三维计算机视觉领域的核心研究方向主要关注于实时定位相机位置并生成周围环境的高精度地图。该技术在机器人定位与导航、自动驾驶以及虚拟/增强现实VR/AR等领域发挥着关键作用。
近年来基于可微渲染的突破性进展特别是神经辐射场NeRF和三维高斯喷溅3DGS显著推动了视觉稠密 SLAM 系统的发展。基于 NeRF 的神经隐式 SLAM 通过将 NeRF 模型与同时跟踪和建图相结合实现了高质量的在线密集地图重建并大幅提升了几何精度。在此基础上高斯 SLAM 系统进一步拓展了研究边界提供了更高保真的地图重建。3DGS 采用显式高斯原语具备细节纹理表现力强、可显式操控场景以及卓越的实时渲染能力等优势。
然而在 SLAM 系统的应用中3DGS 仍然面临一定挑战。与常见的离线重建不同SLAM 需要在有限的计算资源下进行在线处理而 3DGS 依赖于大量关键帧来优化场景的几何和外观。这种依赖性在机器人应用中尤为突出因为机器人往往只能从稀疏的视角观察场景导致地图中存在大量空洞。此外当前高斯 SLAM 系统大多缺乏回环检测和捆绑调整BA机制这可能导致跟踪误差积累并影响长期建图的精度。
本文介绍的DenseSplat[1]是首个结合 NeRF 和 3DGS 优势的 SLAM 系统。DenseSplat 通过利用 NeRF 先验信息来引导高斯原语的初始化从而在稀疏关键帧条件下生成密集的地图表示并有效填补未观察到的区域。此外我们设计了基于几何的原语采样和修剪策略以优化粒度并提高渲染效率。更进一步DenseSplat 结合了回环检测和捆绑调整以提高跟踪鲁棒性并减少漂移误差。
主要贡献
提出 DenseSplat这是首个利用 NeRF 先验优化 3DGS 的视觉 SLAM 系统在稀疏关键帧条件下实现高质量地图重建。
设计了一种基于几何的高斯原语采样和修剪策略以优化渲染效率并减少无关原语的影响。
集成了回环检测和捆绑调整显著提高了帧间跟踪精度减少了误差积累。
在多个大规模数据集上进行实验结果表明 DenseSplat 在跟踪和建图方面均优于现有的最先进方法。
具体方法
图 2 展示了 DenseSplat 的整体流程。系统以 RGB-D 数据流 作为输入并通过同时优化相机位姿和神经辐射场 进行跟踪。随后系统利用从隐式辐射场采样的点来引导高斯原语的初始化以实现高精度的地图重建和场景插值。为了减少漂移误差我们在高斯地图上实施了局部回环检测和捆绑调整。最后介绍了整个建图过程中的损失计算方法以及有效降低系统内存消耗的子地图划分策略。
神经辐射先验
神经辐射渲染基础
NeRF 模型 是一个连续函数用于预测沿采样光线 的颜色 和体密度 。具体而言给定相机原点 和光线方向 我们在光线方向上均匀采样 个点 其中 然后使用光线行进ray marching计算像素颜色
其中 表示透射率 是点 处的透明度 表示相邻采样点之间的间距。辐射场 由一个带 ReLU 激活函数的 MLP 参数化并通过梯度下降优化以最小化光度损失
其中 表示来自具有有效深度测量的光线集合的一个批次 是真实颜色值。
基于 NeRF 的相机跟踪
我们通过优化 NeRF 的目标函数来跟踪每一帧的相机到世界变换矩阵 。相机位姿初始化遵循恒定速度假设
在此我们仅利用 NeRF 模型进行逐帧相机跟踪之后基于精细化的高斯地图进行回环检测和捆绑调整以纠正累积漂移误差详见第 III-C 节。
基于几何的点采样
与需要密集视角优化场景的显式高斯表示不同基于 NeRF 的模型在插值能力方面表现优异可以推断出未观测到的几何信息。为了在实时场景中高效利用这一能力我们采用了多分辨率哈希辐射场该方法能够在不同分辨率下精确获取体数据特别是在稀疏采样区域内捕捉详细的表面几何。我们通过设置密度阈值 识别关键的表面过渡区域并使用以下公式进行插值计算
其中 和 为采样网格点 表示体密度。随后我们将这些点汇总为点云。这种方法利用 NeRF 的强大插值能力实现了密集、基于几何的高斯原语初始化并在后续的建图步骤中进一步优化。
精细化高斯地图
多尺度高斯渲染
通过从 NeRF 模型进行网格采样初始化我们使用一组各向异性的 3D 高斯原语 来表示场景。每个高斯原语 由均值 、协方差矩阵 、不透明度值 、三阶球谐系数 以及缩放因子 组成。在渲染过程中这些高斯原语首先投影到 2D 平面上转换为 2D 高斯。转换过程使用视图矩阵 2D 协方差矩阵 计算如下
其中 是仿射投影的雅可比矩阵。2D 高斯的均值 通过 将 投影到图像平面上。随后这些投影的高斯按照从近到远的顺序排序并使用类似于光线行进的 alpha 混合过程进行渲染最终得到光栅化的像素颜色 和深度值 。
射线引导的高斯修剪
从 NeRF 模型进行采样时可能会引入误差的高斯浮动原语和异常值这些都可能影响重建质量。为了减少密集化过程中产生的冗余高斯原语并提高渲染效率我们实施了基于射线的修剪策略。具体来说我们使用重要性评估来识别和去除在优化过程中不活跃的高斯原语。每个高斯原语的 重要性 通过它对所有输入图像 上采样光线的贡献来量化。灵感来自于之前的研究我们通过以下公式对每个原语进行评分
其中 捕捉了高斯原语 对像素颜色预测的贡献。然后我们通过以下公式计算修剪掩码
其中低于修剪阈值 的原语会从地图中去除。需要注意的是由 NeRF 模型初始化的高斯原语不参与此修剪过程以避免去除那些用于桥接遮挡视角的原语从而保证场景的可管理粒度。
多尺度高斯渲染策略
高斯原语的多尺度渲染策略通过合并较小的高斯原语来提高场景的一致性尤其在较细粒度的层次中有效。具体来说我们使用四个不同分辨率的高斯函数进行渲染分别对应于 1×、4×、16× 和 64× 的降采样分辨率。在训练过程中我们将较小的细节级别的高斯合并到较大的粗糙级别的高斯中。选择哪些高斯进行合并是根据像素覆盖范围来确定的覆盖范围由该区域内的最高频率成分的倒数 来决定其中 为缩放因子。
通过这种方式我们能够有效地合并较小的高斯原语从而避免渲染过程中出现混叠效应提高地图的质量和一致性。
回环检测和捆绑调整
在捆绑调整BA过程中我们使用词袋BoW模型来确定关键帧之间的相关性。一旦检测到回环就会触发对涉及关键帧的 BA 过程。为了在 BA 之后保持地图的几何和视觉一致性我们调整渲染颜色 和深度 并使用估计的相对位姿变换 对共视关键帧 进行变换。我们构造 BA 损失如下
高斯地图优化
建图目标函数
在我们的实验中我们观察到在捆绑调整BA过程中聚合的高斯原语可能会经历尺度膨胀进而可能在地图中引入伪影。为了缓解这一问题我们引入了 L2 正则化损失 该损失用于对尺度超过阈值 的高斯原语进行惩罚。因此整体的建图损失定义为
其中 和 分别表示输入流的真实颜色和深度。SSIM 损失用于计算渲染图像与真实图像之间的结构相似性。系数 和 是加权超参数。
子地图划分与融合
在大规模环境中部署 SLAM 系统时密集建图带来的过度内存消耗是实际应用中的一个关键问题。为了解决这一问题我们采用了一种简单而有效的子地图划分与融合策略如算法 1 所示。具体而言我们将输入帧按每 400 帧为一个间隔进行子地图划分结构如下
其中 表示每个子地图用于开发 NeRF 模型和后续的高斯地图。尽管显式的高斯表示使得子地图可以无缝地合并为一个全局地图但直接融合子地图仍然是一个具有挑战性的任务。我们借鉴 Mipsfusion 的思路在子地图融合过程中使用锚帧捆绑调整BA来实现精确对齐并确保子地图边界的无缝融合。每个子地图的锚定是基于其第一帧的估计位姿进行的。完成 BA 后我们精确调整每个子地图的中心位姿以确保准确的重新锚定。
我们的子地图策略通过允许每个子地图的并行构建显著减少了内存消耗从而缓解了全局地图持续扩展带来的问题。
实验效果
总结一下
DenseSplat是首个无缝结合 NeRF 和 3DGS 优势的 视觉稠密 SLAM 系统用于实现鲁棒的跟踪和建图。DenseSplat 主要针对现实应用中的挑战例如 遮挡视角、计算硬件限制导致的关键帧稀疏性 等问题。该方法通过 NeRF 先验 提升了高斯原语的插值能力并优化了在较少关键帧条件下的 SLAM 性能从而实现了 精细化的场景重建 和 卓越的实时表现。未来研究方向可以包括 在移动端应用中实现该系统或在 多智能体协作系统 中推广 DenseSplat并进一步在真实环境中进行实验。
限制性其场景插值能力依赖于 NeRF因此继承了 NeRF 的一些限制。当缺失区域过大且 NeRF 无法有效捕捉几何信息时我们的方法和 NeRF 一样 难以填补这些空洞导致部分区域在重建地图中仍然欠缺。此外由于 DenseSplat 采用 显式高斯原语 进行场景表示其存储 高保真地图 需要的内存比 NeRF 模型更大后者采用 隐式神经表示。尽管 DenseSplat 通过 子地图系统 来减少计算过程中的内存消耗但仍然存在优化空间未来的研究可以探索更先进的 子地图管理策略以在 多智能体系统 中实现更好的扩展性。 #xxx #xxx #xxx
#xxx
#xxx
#xxx
#xxx
#xxx