最好记得网站域名,网络营销应该这样做,厦门微网站开发,上海交通大学网站建设与管理3我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104
#世界模型会是L3自动驾驶的唯一解吗
三维空间占有率#xff08;3D Occupancy#xff09;预测的目的是预测三维空间中的每个体素是否被占有#xff0c;如果被占有#xff0c;则对应的体素将被标记。3D Semant…我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104
#世界模型会是L3自动驾驶的唯一解吗
三维空间占有率3D Occupancy预测的目的是预测三维空间中的每个体素是否被占有如果被占有则对应的体素将被标记。3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。而自动驾驶世界模型World Model具备对真实物理世界的理解能力基于一些历史信息/状态能够预测未来时刻的场景变化甚至agents的状态变化。因此将OCC和世界模型结合除了可以实现当前时刻的OCC预测还可以预测未来时刻的OCC演变可以直接影响到自动驾驶的规划/决策也是这两年自动驾驶研究的一个重点方向预计2025年会有更多的工作问世,和大家一起复盘2024年OCC和世界模型相关的工作并在文末总结未来的趋势~
Scene as Occupancy
paper: https://arxiv.org/abs/2306.02851code:https://github.com/OpenDriveLab/OccNet
虽然OccNet不属于世界模型OCC的范畴但是有必要简单介绍一个这个工作有助于理解后续介绍的方法。
人类驾驶员能够通过视觉系统轻松描述复杂的交通场景。这种精确感知的能力对于驾驶员的规划至关重要。为了实现这一点一种将物理三维场景量化为具有每个单元语义标签的结构化网格地图的几何感知表示形式即三维占用表示将是理想的。与边界框的形式相比占用表示的关键见解在于它能够捕捉场景中关键障碍物的细粒度细节从而促进后续任务。先前或同时期的文献主要集中在单个场景补全任务上我们可能会认为这种占用表示形式的潜力可能会产生更广泛的影响。在本文中我们提出了 OccNet这是一种以多视图为中心的管道具有级联和时间体素解码器来重建三维占用。OccNet 的核心是一个通用的占用嵌入来表示三维物理世界。这种描述符可以应用于广泛的驾驶任务包括检测、分割和规划。为了验证这种新表示形式的有效性和我们提出的算法针对该算法我们提出了 OpenOcc这是首个基于 nuScenes 构建的高密度高质量 3D 占有率基准。实证实验表明在多个任务中均有显著的性能提升例如运动规划的碰撞率可降低 15% - 58%这证明了我们方法的优越性。
OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
paper: https://arxiv.org/pdf/2311.16038code: https://github.com/wzzheng/OccWorld
理解三维场景如何演变对于自动驾驶中的决策至关重要。大多数现有的方法通过预测物体检测框的运动来实现这一点但无法捕捉到更精细的场景信息。在本文中我们探索了一种新的框架即在三维占用空间中学习世界模型名为OccWorld以同时预测自动驾驶汽车的运动和周围场景的演变。我们提出基于三维占用而非三维边界框和分割图来学习世界模型原因有三1表达能力三维占用能够描述场景更精细的三维结构2效率三维占用率更易于获取例如从稀疏的激光雷达点中获取。3通用性三维占用率能够适应视觉和激光雷达。为了便于对世界演变进行建模我们在三维占用率上学习了一种基于重建的场景tokenizer以获取离散的场景tokens来描述周围场景。然后我们采用类似 GPT 的时空生成转换器来生成后续场景和ego tokens以解码未来的占用率和自车轨迹。在广泛使用的 nuScenes 基准上进行的大量实验表明OccWorld 能够有效地对驾驶场景的演变进行建模。OccWorld 还在不使用实例和地图监督的情况下产生了具有竞争力的规划结果。
OccWorld是两阶段模型
VQ-VAE 的训练极大地阻碍了效率并为第二阶段引入了性能瓶颈。为场景tokenizer找到合适的超参数在平衡重建和预测性能方面仍然具有挑战性完全依赖于自回归方式的隐式特征。它要么忽略了相邻场景中显式的结构一致性要么忽略了图像中容易获取的纹理信息。这些都阻碍了模型充分捕捉环境动态的能力
RenderWorld: World Model with Self-Supervised 3D Label
paper: https://arxiv.org/abs/2409.11356
仅基于视觉的端到端自动驾驶不仅比激光雷达与视觉融合的方法更具成本效益而且比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统我们提出了 RenderWorld这是一种仅基于视觉的端到端自动驾驶框架它使用基于自监督高斯的 Img2Occ 模块生成 3D 占有率标签然后通过 AM-VAE 对标签进行编码并使用世界模型进行预测和规划。RenderWorld 采用高斯点阵来表示 3D 场景并渲染 2D 图像与基于 NeRF 的方法相比这极大地提高了分割精度并减少了 GPU 内存消耗。通过应用 AM-VAE 分别对air和non-air进行编码RenderWorld 实现了更精细的场景元素表示在自回归世界模型的 4D 占有率预测和运动规划方面均达到了最先进的性能。
两阶段训练范式。
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
paper: https://arxiv.org/abs/2409.03272
多模态大型语言模型MLLMs的兴起推动了其在自动驾驶中的应用。近期基于 MLLM 的方法通过学习从感知到动作的直接映射来执行动作忽略了世界的动态以及行为与世界动态之间的关系。相比之下人类拥有世界模型能够基于三维内部视觉表征模拟未来状态并据此规划行为。为此我们提出了 OccLLaMA这是一种占用-语言-动作生成式世界模型它采用语义占用作为通用视觉表示并通过自回归模型统一了视觉-语言-动作VLA模态。具体而言我们引入了一种类似 VQVAE 的场景tokenizer以高效地离散化和重建语义占用场景同时考虑到其稀疏性和类别不平衡的问题。然后我们为视觉、语言和动作构建了一个统一的多模态词汇表。此外我们增强了大型语言模型LLM特别是 LLaMA使其能够在统一的词汇表上进行下一token/场景预测以完成自动驾驶中的多项任务。大量实验表明OccLLaMA 在包括 4D 占用预测、运动规划和视觉问答在内的多项任务中均取得了具有竞争力的性能展示了其作为自动驾驶基础模型的潜力。
两阶段训练范式。
An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training
paper: https://arxiv.org/abs/2412.13772
自动驾驶领域对世界模型的兴趣日益浓厚这类模型旨在基于历史观测预测潜在的未来场景。在本文中我们介绍了 DFIT-OccWorld这是一种高效的 3D 占有世界模型它利用了解耦动态流和图像辅助训练策略显著提升了 4D 场景预测性能。为了简化训练过程我们摒弃了之前的两阶段训练策略并创新性地将占有预测问题重新表述为解耦的体素变形过程。我们的模型通过使用体素流对现有观测进行变形来预测未来的动态体素而静态体素则通过姿态变换轻松获得。此外我们的方法还引入了图像辅助训练范式以增强预测的可靠性。具体而言采用可微体积渲染通过预测的未来体积生成渲染深度图并将其用于基于渲染的光度一致性。实验表明了我们方法的有效性在 nuScenes 和 OpenScene 基准测试中展示了其在 4D 占有预测方面的先进性能。该模型实现了精准预测、端到端运动规划和点云预测。具体而言与现有的 3D 世界模型相比它达到了最先进的性能同时计算成本大幅降低。
效率和性能都比之前的两阶段模型好。
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
paper:https://arxiv.org/abs/2408.14197project page: https://drive-occworld.github.io/
世界模型基于各种ego行为设想潜在的未来状态。它们嵌入了关于驾驶环境的大量知识有助于实现安全且可扩展的自动驾驶。大多数现有的方法主要侧重于数据生成或世界模型的预训练范式。与上述先前的工作不同我们提出了 Drive-OccWorld它将以视觉为中心的 4D 预测世界模型适应于自动驾驶的端到端规划。具体而言我们首先在内存模块中引入语义和运动条件归一化该模块从历史 BEV 嵌入中积累语义和动态信息。然后这些 BEV 特征被传递到世界解码器用于未来占用和流预测同时考虑几何和时空建模。此外我们提出将灵活的动作条件如速度、转向角、轨迹和指令注入世界模型以实现可控生成并促进更广泛的下游应用。此外我们还探索了将 4D 世界模型的生成能力与端到端规划相结合从而能够利用基于占用率的成本函数连续预测未来状态并选择最优轨迹。在 nuScenes 数据集上进行的大量实验表明我们的方法能够生成合理且可控的 4D 占用率为驾驶世界生成和端到端规划开辟了新的途径。
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving
paper: https://arxiv.org/abs/2405.20337code: https://github.com/wzzheng/OccSora
理解 3D 场景的演变对于实现有效的自动驾驶至关重要。虽然传统方法通过单个实例的运动来建模场景的发展但世界模型作为一种生成框架能够描述一般的场景动态。然而大多数现有的方法采用自回归框架来进行下一个token预测这在对长期时间演变进行建模时效率低下。为了解决这个问题我们提出了一种基于扩散的 4D 占有率生成模型 OccSora用于模拟自动驾驶中的 3D 世界的发展。我们采用 4D 场景tokenizer来获取 4D 占有率输入的紧凑离散时空表示并实现对长序列占有率视频的高质量重建。然后我们在时空表示上学习扩散Transformer并根据轨迹提示生成 4D 占有率。我们在广泛使用的 nuScenes 数据集上进行了大量实验该数据集带有 Occ3D 占有率注释。OccSora 能够生成具有真实 3D 布局和时间一致性的 16 秒视频这表明它能够理解驾驶场景的空间和时间分布。凭借轨迹感知的 4D 生成能力OccSora 有可能成为自动驾驶决策的世界模拟器。
DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model
paper: https://arxiv.org/abs/2410.10429project page: https://gusongen.github.io/DOME
我们提出了一种基于扩散的世界模型 DOME它能够根据过去的占用情况预测未来的占用帧。这种世界模型捕捉环境演变的能力对于自动驾驶中的规划至关重要。与基于 2D 视频的世界模型相比占用世界模型利用了原生的 3D 表示具有易于获取的标注且不受模态限制。这种灵活性有可能促进更先进世界模型的发展。现有的占用世界模型要么因离散tokens而损失细节要么依赖于简单的扩散架构导致预测未来占用情况时效率低下且难以实现可控性。我们的 DOME 具有两个关键特性1高保真度和长时生成。我们采用时空扩散Transformer基于历史上下文预测未来的占用帧。这种架构能够高效地捕捉时空信息从而实现高保真度的细节并具备长时间生成预测的能力。2细粒度可控性。我们通过引入一种轨迹重采样方法来应对预测中的可控性挑战这显著增强了模型生成可控预测的能力。在广泛使用的 nuScenes 数据集上进行的大量实验表明我们的方法在定性和定量评估中均超越了现有的基准在 nuScenes 上建立了新的最先进性能。具体而言在占用重建方面我们的方法在 mIoU 上比基准高出 10.5%在 IoU 上高出 21.2%在 4D 占用预测方面在 mIoU 上高出 36.0%在 IoU 上高出 24.6%。
GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction
paper: https://arxiv.org/abs/2412.10373code: https://github.com/zuosc19/GaussianWorld
3D 占有率预测对于自动驾驶至关重要因为它能全面感知周围环境。为了融合序列输入大多数现有方法将先前帧的表示融合起来以推断当前的 3D 占有率。然而它们未能考虑驾驶场景的连续性并且忽略了 3D 场景演变所提供的强大先验信息例如只有动态物体在移动。在本文中我们提出了一种基于世界模型的框架以利用场景演变进行感知。我们将 3D 占有率预测重新表述为一个基于当前传感器输入的 4D 占有率预测问题。我们将场景演变分解为三个因素1静态场景的自身运动对齐2动态物体的局部移动3新观察到场景的补全。然后我们采用高斯世界模型GaussianWorld来明确利用这些先验信息并在考虑当前 RGB 观测的情况下在 3D 高斯空间中推断场景演变。我们在广泛使用的 nuScenes 数据集上评估了我们框架的有效性。我们的GaussianWorld在不增加额外计算量的情况下将单帧对应模型的 mIoU 性能提高了 2% 以上。
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving
paper: https://arxiv.org/abs/2407.21126
环境预测框架对于自动驾驶汽车AV在动态环境中的安全导航至关重要。激光雷达生成的占用网格地图L-OGM为场景表示提供了可靠的鸟瞰视角能够实现自监督的联合场景预测同时对部分可观测性和感知检测失败具有较强的鲁棒性。先前的方法主要集中在网格单元空间内的确定性 L-OGM 预测架构上。尽管这些方法取得了一定的成功但它们经常产生不切实际的预测并且无法捕捉环境的随机性。此外它们还不能有效地整合自动驾驶汽车中现有的其他传感器模态。我们提出的框架在生成架构的潜在空间中进行随机 L-OGM 预测并允许基于 RGB 相机、地图和规划轨迹进行条件设置。我们使用单步解码器来解码预测该解码器能够实时提供高质量的预测或者使用基于扩散的批处理解码器该解码器可以进一步优化解码帧以解决时间一致性问题并减少压缩损失。我们在 nuScenes 和 Waymo Open 数据集上进行的实验表明我们方法的所有变体在定性和定量方面都优于先前的方法。
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving
paper: https://arxiv.org/abs/2405.04390
以视觉为中心的自动驾驶由于成本较低近来受到了广泛关注。预训练对于提取通用表示至关重要。然而当前以视觉为中心的预训练通常依赖于 2D 或 3D 的预训练任务忽略了自动驾驶作为 4D 场景理解任务的时间特性。在本文中我们通过引入一个基于世界模型的自动驾驶 4D 表示学习框架来解决这一挑战该框架被称为DriveWorld能够从多摄像头驾驶视频中以时空方式预训练。具体而言我们提出了一种用于时空建模的记忆状态空间模型它由一个动态记忆库模块组成用于学习具有时间感知的潜在动态以预测未来变化以及一个静态场景传播模块用于学习具有空间感知的潜在静态以提供全面的场景上下文。我们还引入了一个任务提示以解耦适用于各种下游任务的任务感知特征。实验表明DriveWorld 在各种自动驾驶任务中取得了令人鼓舞的结果。在使用 OpenScene 数据集进行预训练时DriveWorld 在 3D 物体检测方面实现了 7.5% 的 mAP 提升在在线地图绘制方面实现了 3.0% 的 IoU 提升在多目标跟踪方面实现了 5.0% 的 AMOTA 提升在运动预测方面实现了 0.1 米的 minADE 降低在占用预测方面实现了 3.0% 的 IoU 提升在规划方面实现了平均 L2 误差 0.34 米的减少。
MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving
paper: https://arxiv.org/abs/2311.11762code: https://github.com/fzi-forschungszentrum-informatik/muvo
为自动驾驶学习无监督世界模型有可能极大地提升当今系统的推理能力。然而大多数工作都忽略了世界的物理属性仅关注传感器数据。我们提出了 MUVO一种具有空间体素表示的多模态世界模型以应对这一挑战。我们利用原始的摄像头和激光雷达数据来学习一种与传感器无关的世界几何表示。我们展示了多模态的未来预测并表明我们的空间表示提高了摄像头图像和激光雷达点云的预测质量。
总结
OCC世界模型的范式具有很大的潜力相信接下来会有更多的相关工作使用diffusion-base的世界模型生成未来时刻的数据这个过程比较耗时同时多帧以及多传感器的融合策略也可能会影响实时性OCC的演变本身依赖于世界模型的生成能力但是目前训练一个精确理解物理世界演变的世界模型非常困难因此一定程度上会影响这类模型的性能Gaussian的强大表达能力有助于提高帧间的一致性而且相比NeRF,占用更少的资源有待进一步探索。 #EnerVerse
智元机器人最新首个机器人4D世界模型来了
EnerVerse 主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生师从 CUHK-MMLab 的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在 CoRL、MM、 IROS、ECCV 等顶级会议上以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家主要负责具身空间智能与世界模型的研究。
如何让机器人在任务指引和实时观测的基础上规划未来动作一直是具身智能领域的核心科学问题。然而这一目标的实现受两大关键挑战制约
模态对齐需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。
数据稀缺缺乏大规模、多模态且带有动作标签的数据集。
针对上述难题智元机器人团队提出了 EnerVerse 架构通过自回归扩散模型autoregressive diffusion在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型EnerVerse 深度结合具身任务需求创新性地引入稀疏记忆机制Sparse Memory与自由锚定视角Free Anchor View, FAV在提升 4D 生成能力的同时实现了动作规划性能的显著突破。实验结果表明EnerVerse 不仅具备卓越的未来空间生成能力更在机器人动作规划任务中实现了当前最优SOTA表现。
项目主页与论文已上线模型与相关数据集即将开源
欢 迎 访 问
主页地址
https://sites.google.com/view/enerverse/home
论文地址
https://arxiv.org/abs/2501.01895 如何让未来空间生成赋能机器人动作规划
机器人动作规划的核心在于基于实时观测和任务指令预测并完成一系列复杂的未来操作。然而现有方法在应对复杂具身任务时存在如下局限
通用模型局限性当前通用视频生成模型缺乏对具身场景的针对性优化无法适应具身任务中的特殊需求。视觉记忆泛化能力不足现有方法依赖稠密连续的视觉记忆容易导致生成长程任务序列时逻辑不连贯动作预测性能下降。
为此EnerVerse 通过逐块生成的自回归扩散框架结合创新的稀疏记忆机制与自由锚定视角FAV方法解决了上述瓶颈问题。
技术方案解析
逐块扩散生成Next Chunk Diffusion
EnerVerse 采用逐块生成的自回归扩散模型通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括
扩散模型架构基于结合时空注意力的 UNet 结构每个空间块内部通过卷积与双向注意力建模块与块之间通过单向因果逻辑causal logic保持时间一致性从而确保生成序列的逻辑合理性。稀疏记忆机制借鉴大语言模型LLM的上下文记忆EnerVerse 在训练阶段对历史帧进行高比例随机掩码mask推理阶段以较大时间间隔更新记忆队列有效降低计算开销同时显著提升长程任务的生成能力。任务结束逻辑通过特殊的结束帧EOS frame实现对任务结束时机的精准监督确保生成过程在合适节点终止。 灵活的4D生成Free Anchor View (FAV)
针对具身操作中复杂遮挡环境和多视角需求EnerVerse 提出了自由锚定视角FAV方法以灵活表达 4D 空间。其核心优势包括
自由设定视角FAV 支持动态调整锚定视角克服固定多视角fixed multi-anchor view在狭窄场景中的局限性。例如在厨房等场景中FAV 可轻松适应动态遮挡关系。跨视角空间一致性基于光线投射原理ray castingEnerVerse 通过视线方向图ray direction map作为视角控制条件并将 2D 空间注意力扩展为跨视角的 3D 空间注意力cross-view spatial attention确保生成视频的几何一致性。Sim2Real 适配通过在仿真数据上训练的 4D 生成模型EnerVerse-D与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代EnerVerse 构建了一个数据飞轮为真实场景下的 FAV 生成提供伪真值支持。 高效动作规划Policy Head
EnerVerse 通过在生成网络下游集成 Diffusion 策略头Diffusion Policy Head打通未来空间生成与机器人动作规划的全链条。其关键设计包括
高效动作预测生成网络在逆扩散的第一步即可输出未来动作序列无需等待完整的空间生成过程确保动作预测的实时性。稀疏记忆支持在动作预测推理中稀疏记忆队列存储真实或重建的 FAV 观测结果有效提升长程任务规划能力。
实验结果
1. 视频生成性能
在短程与长程任务视频生成中EnerVerse 均展现出卓越的性能
在短程生成任务中EnerVerse 表现优于现有微调视频生成模型如基于 DynamiCrafter 与 FreeNoise 的扩散模型。在长程生成任务中EnerVerse 展现出更强的逻辑一致性与连续生成能力这是现有模型无法实现的。 此外EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。 2. 动作规划能力
在LIBERO基准测试中EnerVerse在机器人动作规划任务中取得了显著优势
• 单视角one FAV模型在LIBERO四类任务中的平均成功率已超过现有最佳方法。
• 多视角three FAV设定进一步提升任务成功率在每一类任务上均超越现有方法。 3. 消融与训练策略分析
• 稀疏记忆机制消融实验表明稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。 • 二阶段训练策略先进行未来空间生成训练再进行特定场景动作预测训练的二阶段策略可显著提升动作规划性能。 4. 注意力可视化
通过可视化 Diffusion 策略头中的交叉注意力模块研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。 智元机器人通过 EnerVerse 架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划EnerVerse 不仅突破了机器人任务规划的技术瓶颈还为多模态、长程任务的研究提供了全新范式。 #nuscenesSOTA
东北大学4D时空Lidar分割网络4D-CS
LiDAR点云的语义分割对于自动驾驶和移动机器人系统具有重大意义。大多数方法通过探索多扫描的时间信息来识别每个点的类别和运动状态。然而这些方法常常忽略了空间和时间上的一致性分割可能导致同一物体内的点被预测为不同的类别。为了解决这个问题我们的核心思想是生成跨多个帧的聚类标签这些标签可以反映物体的完整空间结构和时间信息。这些标签作为显式指导用于我们的双分支网络4D-CS该网络结合了基于点和基于聚类的分支以实现更一致的分割。具体来说在基于点的分支中我们利用历史知识通过多视图的时间融合来丰富当前特征。在基于聚类的分支中我们提出了一种新策略来生成前景物体的聚类标签并将其应用于收集点特征以派生聚类特征。然后我们合并多个扫描中的相邻聚类以恢复由于遮挡而缺失的特征。最后在点-聚类融合阶段我们自适应地融合来自两个分支的信息以优化分割结果。广泛的实验验证了我们所提方法的有效性并且在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的结果。代码地址 https://github.com/NEU-REAL/4D-CS.git
I. INTRODUCTION
LiDAR点云的语义分割是自动驾驶和移动机器人系统中的一项关键任务它涉及识别每个点的类别。这对于下游任务包括语义映射和长期自主导航具有重要意义。
近年来一些方法尝试对单个LiDAR帧进行语义分割。然而这些逐帧分割算法忽略了一些有用的时间知识特别是过去时刻对物体的不同且互补的观察这使得处理遮挡和稀疏点的情况变得困难。此外由于独立分离每一帧这些方法无法区分LiDAR序列中物体的运动状态导致在映射过程中出现幽灵效应。
为了克服上述限制一些方法采用多扫描LiDAR点来恢复物体的完整外观或利用时空特征来提高场景感知能力。此外它们还探索了从LiDAR序列中提取潜在运动信息的潜力以识别物体的运动状态。例如Memory-Seg通过循环更新记忆特征来补偿当前帧由于遮挡造成的信息丢失。SVQNet通过聚合相邻历史点的信息进行局部特征编码并选择时间上下文来完成不可见的几何形状从而取得了有希望的结果。
然而即使考虑了这种时间信息有时对实例级信息的适当考虑不足可能导致属于同一物体的点被归类到不同的语义类别。具体来说如图1(a)所示大型车辆的分割结果容易出现截断因为网络通常关注点分类而忽略了实例级别的理解。然后如图1(b)所示尽管在某一时刻可以准确预测物体的运动状态但模型仍然难以确保相邻时间中分割的一致性。因此如何在时空空间中实现一致的结果呢一种可能的方法是聚类。对于具有稀疏分布前景物体的室外场景像DBSCAN这样的聚类方法可以提供完整的物体外观见图1(e)和(f)这适用于指导网络生成满足时空一致性的分割结果。
方法论
A. 概述
在本节中我们提出了一种基于聚类的方法称为4D-CS它提高了同一对象所属点的分割结果的一致性。如图2所示我们的方法包括基于点的分支、基于聚类的分支和点-聚类融合。对于图2(a)中的基于点的分支我们首先使用自我运动将多帧点云对齐到当前点的坐标系中并将它们输入骨干网络以提取特征。为了利用过去的知识我们使用多视角时间融合MTF模块来合并多个视图上的时间特征从而得到增强特征。对于图2(b)中的基于聚类的分支我们根据历史预测生成聚类标签并利用它们从点特征中聚合初始实例特征。然后提出了一个时间聚类增强TCE模块来整合时间聚类特征这些特征随后被分配给前景点以创建精细的实例特征。最后在图2(c)中的点-聚类融合阶段我们采用来自两个分支的特征来预测分割结果然后在自适应预测融合APF模块中自适应地优化每个点的语义类别和运动状态。
B. 基于点的分支
如图2所示我们使用姿态变换矩阵将过去的扫描转换到当前点的坐标系中。通过堆叠它们我们可以得到密集点云其中每个点包含3D坐标和距离激光雷达传感器原点的距离d。在点特征提取过程中我们采用WaffleIron[14]作为我们的骨干网络它首先结合K最近邻KNN和多层感知器MLP为每个点获取粗略的局部特征。此后将这些点映射到不同视图的2D平面上以提取特征避免了直接处理大量点云的计算负担。具体来说我们将点特征沿z轴投影到x-y平面上并利用2D卷积提取语义信息。然后我们将2D特征反投影到点云上并再次沿y轴和x轴映射到其他平面上。通过重复上述过程我们可以实现高效的特征提取并生成点特征其中是下采样点的数量。
多视角时间融合为了充分利用时间信息我们使用MTF模块将历史信息与当前特征相结合。最初投影矩阵被应用于将历史特征转换到当前帧的坐标系中。然后如图3(a)所示我们依次将转换后的特征和输入对应于x-y、x-z和y-z平面的2D融合块中进行时间融合。2D融合的过程如图3(b)所示。首先将点特征输入沿特定坐标轴投影到2D网格中。然后我们在同一网格内平均点特征得到大小为的2D特征。接下来它们沿通道维度组合并使用1x1卷积执行特征融合。然后将2D特征反投影到相应的3D点上替换原始特征。最后通过在不同视图上执行上述步骤我们可以嵌入历史知识并获得增强特征从而减少由于遮挡造成的信息丢失。
C. 基于聚类的分支
大多数语义分割网络[10],[13]通常缺乏实例级感知这将导致属于同一对象的点的语义预测不一致图1(a)和(b)。为了解决这个问题我们旨在利用多扫描的聚类结果作为额外信息来增强语义分割中的时空一致性。
聚类标签生成由于点云序列的连续性我们可以采用自我运动将过去的扫描与当前点对齐并将历史预测分配给当前帧。然后对于被归类为前景的点我们可以使用DBSCAN将它们分割成多个聚类并获得聚类标签图1(e)和(f)。
具体来说如图4(a)所示我们通过以下步骤将历史语义预测转移到当前点(1) 标签初始化由于关注前景分割的一致性我们将历史预测映射到背景、前景和道路状。同时t帧中的所有点都初始化为“未标记”。(2) 非地面标签分配首先我们通过变换矩阵将历史非地面点转换到t帧的坐标系中。接下来我们将3D空间分割成多个大小为的体素并将历史点输入相应的体素中。通过最多投票操作基于其点中最常见的类别分配体类。然后我们根据坐标关系将体类分配给当前帧。(3) 地面标签分配如果两帧之间存在平移则当前帧中的地面点可能没有来自历史帧的附近对应点导致许多地面点在小体素步骤(2)中仍然未标记。因此我们使用更大更平的体素为“未标记”的点分配道路状标签。
为了获得包含时空信息的前景聚类结果我们对多帧的堆叠点云进行聚类图4(b)。然而由于前景对象可能在移动一些邻居Missing or unrecognized delimiter for \left\tilde{C}t{c_i}{i1}^{N_c}其中N_c$是中的第j个点L表示预测的类别。
实例特征聚合这部分旨在根据聚类标签收集基于点的分支的所有点特征以产生实例信息。一种简单而有效的方法是将同一聚类中的所有点特征聚集起来$$\left{u_i\in R^D\right}{i1}^{N_c}。同时点的坐标也被平均以产生聚类中心G_t\left{g_i\in R^3\right}{i1}^{N_c}$。然而由于点云的稀疏性或遮挡DBSCAN可能会将同一对象的点分割成多个聚类导致聚类不能很好地反映实例信息。因此我们提出了一个时间聚类增强TCE模块通过与多帧相邻聚类的组合来补充聚类特征并提高聚类信息的完整性。
在TCE中我们通过变换矩阵将历史聚类中心投影到当前坐标系中并将其与当前聚类组合以获得新的聚类中心和相应的特征密集点这是多帧如图所示的。然后我们保留被归类为前景聚类的点我们使用线性层o查询。并且特征的uisters 被投影到$$和值向量。之后我们将的通道分成h组并使用分组向量注意力[16]来聚合靠近的聚类特征表示为
其中是位置编码函数是不同邻居的所有的集合。表示可学习的分组权重编码。同时增强的聚类特征表示为。最后我们将聚类特征分配给相应的前景点。对于剩余的点我们用零填充它们的特征并得到与大小相同的最终点级聚类特征。
D. 点-聚类融合
为了结合两个分支的语义特征和实例信息并获得时空一致的分割结果我们提出了一个自适应预测融合APF模块在点-聚类融合阶段自适应地合并两个分支的预测结果。如图5所示对于来自不同分支的特征我们采用特定的头部分别估计每个点的语义类别和运动状态获得语义逻辑分数和运动逻辑分数。然后为了对两个分支的预测逻辑分数进行加权我们将点特征沿通道维度连接起来并通过两个不共享权重的MLP计算置信度分数其值范围从0到1。
之后置信度分数用于合并t的预测逻辑分数可以表示为以下公式
E. 损失函数
在训练过程中给定地面真实标签我们采用每个点的预测语义逻辑分数和运动逻辑分数来计算损失如下所示
其中和分别是语义和运动预测的交叉熵损失。和是语义和运动结果的多项式软最大损失[27]。该损失函数作为一个可微分的替代品旨在优化用于衡量分割质量的交并比IoU从而补偿交叉熵损失在优化目标中的不足。
IV. 实验
A. 数据集
SemanticKITTI[31] 是一个广泛使用的室外场景语义理解数据集。它利用64束激光雷达收集点云并包含22个激光雷达序列其中序列00至10为训练集序列08为验证集序列11至21为测试集。语义分割任务分为单次扫描19个类别和多次扫描25个类别前者仅区分对象类别后者还需识别前景对象的运动状态。此外SemanticKITTI-MOS是另一个基准仅确定点的动态和静态状态。另外nuScenes[32] 由32束激光雷达传感器收集的1000个驾驶场景组成提供16个语义类别。然后按照[29],[30]的方法我们使用真实的3D边界框创建额外的8个移动类别。
B. 评估指标
我们采用交并比IoU来评估不同方法。IoU定义为 其中TP、FP和FN分别表示真阳性、假阳性和假阴性。由于我们采用了两个分支我们采用mIoU作为评估指标它表示所有类别的IoU平均值。对于MOS基准我们使用移动对象的IoU作为评估指标。
C. 实现细节
在训练和测试过程中我们使用SemanticKITTI数据集的三连续帧点云作为输入。对于nuScenes数据集激光雷达以20Hz的频率运行我们选择时间步长为2的三帧以更好地捕捉对象运动。我们采用WaffleIron[14]6层作为骨干网络。与[14]类似我们通过保留每个10厘米体素中的一个点来下采样点云。对于WaffleIron的超参数我们在SemanticKITTI上使用和40厘米的网格分辨率在nuScenes上使用和60厘米的网格。对于聚类标签生成非地面分配的体素大小设置为地面分配的体素大小为。此外我们在没有历史特征的情况下训练网络45个周期使用两块NVIDIA RTX 4090 GPU。之后冻结骨干网络并对剩余模块额外训练45个周期。我们采用AdamW[33]优化网络权重衰减为0.003批量大小为6。此外我们的数据增强策略包括随机翻转、旋转、缩放以及与polarmix[14]结合的实例cutmix。
D. 评估结果
定量结果如表I和表II所示我们将我们的算法与其他方法在SemanticKITTI和nuScenes的多扫描语义分割任务上进行比较。结果表明所提出的4D-CS在mIoU方面达到了最先进的性能。与基线[14]相比我们在大型前景对象上取得了显著改进卡车提高了22.5%其他车辆提高了17.0%动态卡车提高了26.2%移动的其他车辆提高了14.7%。在表II中我们的方法在大多数前景对象上也实现了IoU的提升特别是对于大型对象如卡车和公共汽车。这表明显式的聚类先验可以帮助网络关注对象的完整空间信息而不是依赖于其他算法从有限感受野获得的局部特征从而获得更好的前景对象分割结果。此外我们在SemanticKITTI的MOS基准测试集上的表现也进行了比较。我们的方法在测试集上超越了最先进的工作MF-MOS[24]IoUM提高了6.8%。这验证了在点和实例级别传输历史特征不仅可以提高分割的完整性还可以增强模型识别对象运动状态的能力。
定性比较语义定性结果如图6所示。它显示了基线网络在大对象上的分割结果容易因缺乏实例感知能力而出现截断。相比之下我们的方法在引入聚类信息后可以实现一致的分割结果。此外对于图7中显示的移动对象定性结果基线模型仍然难以完全分割移动对象而我们的方法成功实现了这一点。总体而言我们的方法在准确一致地识别前景对象的类别和运动状态方面具有更强的能力。
E. 消融研究
在本节中我们在SemanticKITTI数据集的验证集上进行了全面的消融实验。
F. 运行时间和内存
在本节中我们使用NVIDIA RTX 4090 GPU来测量SemanticKITTI数据集上多扫描语义分割的推理时间。使用三帧点云我们的基线方法WaffleIron需要117毫秒并占用8.2 GB的内存。相比之下我们提出的算法需要151毫秒的网络处理时间和5毫秒的聚类标签生成时间使用9.9 GB的内存。
结论
文章的主要贡献如下
● 一个使用显式聚类信息来解决同一前景物体内点类别不一致的双分支分割网络。
● 一种获取聚类标签的新策略伴随着三个模块多视图时间融合、时间聚类增强和自适应预测融合旨在通过利用实例信息和整合时间特征来改进分割。
● 在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的性能。我们的代码将很快发布。
文章名字4D-CS: Exploiting Cluster Prior for 4D Spatio-Temporal LiDAR Semantic Segmentation #DrivingWorld
一次搞定自驾场景的可控生成和长时序生成科大和地平线提出基于视频GPT构建自动驾驶世界模型
本文介绍了港科大和地平线联合提出的DrivingWorld模型该模型基于视频GPT构建能够实现自动驾驶场景的可控生成和长时序生成通过创新的空间-时间解耦机制和高效的编码解码模块显著提升了视频生成的质量和长度为自动驾驶技术的发展提供了新的支持。
DrivingWorld的主要作者是来自香港科技大学和地平线公司的研究团队他们专注于世界模型和自动驾驶技术的研究力求在这两个领域做出更多的贡献。
论文地址https://arxiv.org/abs/2412.19505
代码地址https://github.com/YvanYin/DrivingWorld
1. 背景介绍
世界模型World Model 是一种可以模拟世界动态的模型能够基于过去的观测实现对未来状态的预测因此被视为实现AGI的关键途径。世界模型在自动驾驶领域展现了巨大的潜力不仅具备对环境和驾驶状态的深刻理解还为未来轨迹预测与自动驾驶决策提供了重要支持。然而要通过World Model实现高逼真度的驾驶场景生成并非易事。香港科技大学与地平线联合推出的基于自回归架构的DrivingWorld模型为构建精准的自动驾驶世界模型带来了全新突破。
2. 为什么世界模型要采用自回归模型
同样是输出未来的视频为什么不采用扩散生成模型Diffusion Model而是采用自回归模型为了回答这个问题小编向GPT-4o询问了这个问题。 3. 如何实现这一步呢
美国知名公司Wayve率先展示了针对自动驾驶的世界模型GAIA-1。该模型采用了自回归路线但是由于其采用的传统GPT框架缺乏空间与时间动态建模能力其生成视频质量与时间都有很大提升空间。
时长00:11
为解决这个问题DrivingWorld创新性地引入空间-时间先解耦后融合的机制提出了一种基于Next-State自回归式框架的方法用于实现超长时序视频预测和可控的视频生成。尽管相关领域已有一些研究但是DrivingWorld在视频生成长度方面仍然取得了明显突破。
高效的视频可量化的编码和解码模块首次提出视频可量化编码解码器相比于单张图压缩方案在降低视频抖动和提升连续性方面取得了明显改进FID指标上相对于SOTA提升了17%解耦时序信息和多模态信息实现可控预测和超长时序预测DrivingWorld能够生成未来40s的video相较于当前的SOTA方法最长15s在时序长度上有了显著提升高效的自回归模型设计以实现并行化预测DrivingWorld采用了空间-时间先解耦后融合的设计采用next-state prediction的自回归策略有效降低了token预测的时间复杂度在复杂视频生成任务中展现了良好的性能表现。
4. 实验结果4.1 长时序生成
以下展示了一个长时序视频生成的示例。DrivingWorld在不同帧之间能够捕捉到连贯的3D场景结构。 4.2 解决Drift问题
在生成长序列时模型经常会因为误差积累导致显著的drift问题。DrivingWorld引入了一种有效的mask token策略可以缓解drift的影响从而提升生成质量。 4.3 生成质量评估
DrivingWorld与现有的SOTA方法在NuScenes验证集上进行了性能比较。其中蓝色表示 NuScenes数据被包含在模型的训练集中橙色则代表zero-shot测试结果。“w/o P”指未使用私有数据进行训练的情况。具体对比结果如下 从结果可以看出DrivingWorld 模型不仅能够生成更长的视频序列最长达40s / 400帧同时在FID和FVD上也展现出了较强的竞争力。
4.4 更多Demos展示
4.4.1 可控生成
时长00:18
时长00:20
时长00:29
4.4.2 长时序生成demo
时长00:51
时长01:02
5. 未来工作
展望未来DrivingWorld 还有很大的发展潜力。DrivingWorld 的研究团队计划进一步融入更多模态信息如车辆传感器数据、地图信息等并整合多视图输入如不同角度的摄像头画面。通过全方位融合多模态和多视角数据有望进一步提升模型在复杂驾驶环境下的理解能力、动作控制精度以及视频生成的准确性从而推动自动驾驶系统整体性能和可靠性迈向新的高度为自动驾驶技术的广泛应用奠定坚实基础。 #自动驾驶决策规划 - 基于模型的预测方法
1. 预测系统概述
通过已有的感知信息及常识推理出目标一段时间后的行为来决定自己当前的动作。 自动驾驶系统架构
1.1 预测系统的必要性 Cut In 场景
对于隔壁车道目标 cut in 场景如何平衡召回率Recall和准确率Accuracy对决策规划分别有何影响
如果recall过低隔壁车辆切入会存在误检存在碰撞风险。 如果Accuracy过低可能存在误识别隔壁车切入存在误制动问题。
召回率Recall 和 准确率Accuracy
召回率Recall 和 准确率Accuracy 都是用于评估分类模型性能的重要指标但它们侧重点不同适用于不同的场景。
召回率Recall
召回率主要衡量的是模型能够识别出多少实际存在的目标正样本。它的核心关注点是减少漏报即确保尽可能多的目标被正确识别特别是在自动驾驶场景中涉及检测行人、车辆、障碍物等时尤为关键。 其中TPTrue Positive正确预测为目标的数量FNFalse Negative漏掉的实际目标的数量。召回率高意味着系统漏掉的目标较少减少了碰撞或事故的风险但它可能会增加误报的风险。
准确率Accuracy
准确率衡量的是所有预测中模型预测正确的比例。它包括正确的正样本TP和负样本TN。 其中TNTrue Negative正确预测的负样本FPFalse Positive误报的负样本。准确率高并不总是意味着模型好特别是在数据不平衡的情况下。
预测结果的的多模态性、不确定性。
意图多模态预测不可能百分百准确。预测系统主要考虑一下几个问题
如何基于环境信息进行建模模型应该输出哪些信息对于长时间的预测应该怎么做 预测结果多模态、不确定
1.2 预测系统的架构
输入表征agent feature、map、其他辅助信息.
输出表征trajectory\intention、object、scenarios. 预测系统架构 轨迹预测的输入输出
1.3 预测系统的发展 预测系统的发展
2. 定速度预测
一维匀速运动模型感知信息不确定道路结构缺失等情况适用CV 模型。
目标做匀速直线运动加速度为0。现实中速度会有轻微扰动变化可视为具有高斯分布的噪声。
一维运动仅沿着 x 轴或 y 轴方向运动因此状态向量只需要描述位置和速度。
一维状态向量 局限与感知耦合密切, 目标的yaw 与 velocity会影响预测的轨迹。感知系统存在的误差会直接影响到预测。
二维匀速运动模型
二维模型在 x-y 平面上运动状态向量需要同时描述 x 和 y 两个方向的位置和速度。 二维连续模型 二维离散模型
3.定曲率预测
目标车过去按照某一曲率运动假设会继续按照该曲率运动。
定曲率意味着物体的运动轨迹具有恒定的曲率即轨迹为一个圆弧或圆的一部分。在物体运动时转向角速度yaw rate保持不变因此物体会沿着一个固定半径的圆弧运动。 定曲率预测模型
缺点曲率估计不准确时误差会比较大。 定曲率预测的bad case
共同局限长时间区间会失准 定速度、定曲率预测对比
4. 短时预测与长时预测
预测不确定性随着预测时间变长显著增大。
短期预测基于运动学模型或者预测网络完成短时推演一般为 3s。长期预测结合意图预测稳定长时预测避免远端发散符合道路结构一般为 8s。
如何解决 预测时间越长预测越不准确的问题引入 意图预测。 5. 基于手工特征的意图预测
意图预先定义的车流行为如变道左右转等。意图一般会绑定到车道、路口两个信息上。分类基于车辆的行为特征对车辆的意图进行分类。意图转变为分类问题。 常见预测场景
5.1基于SVM的意图分类
支持向量机Support Vector MachineSVM 支持向量机Support Vector Machine
以预测目标车是否会变道为例二分类问题。
手工特征标记距离目标车道的横向距离、距离目标车道的横向速度、道路实线、虚线 、目标车与前车的距离或者速度等等 。
特征如何选取选择哪些维度拓展特征维度有什么意义变道前一段时间预测出其变道行为需要提前多久超参变道趋势不一样。如果较早缓慢变道与Lane keep不易区分较晚较低预测性能 预测目标车是否会变道 SVM 输入输出案例
5.2 基于神经网络的意图预测
将原始信息进行编码使用高维向量进行输入通过多层感知机预测障碍车会选择哪一条车道行驶输出每个车道线的概率。DNN Rule兜底。 Apollo 5.0
5.3 其他的输出建模方法
将路口进行扇区划分进行交通路口的变道意图预测
输入障碍物自身运动历史路口车道信息周围其他障碍物信息。模型以障碍物车朝向为参考方向划分为12个扇形区域记录每个扇形区域内是否有离开该路口的车道将问题转化为12元分类问题。输出每一个扇形区域行驶的概率然后对扇形区域内的所有lane segment赋上概率。 Apollo 5.0 对路口的处理
5.4 其他的输入建模方法
人工构造的输入特征有天然局限性
输入语义地图渲染的方式将障碍车的历史运动状态、车道的形状与连接关系以及其他车的运动状态和历史都转化为图像信息。看图说话根据图像信息预测目标轨迹 Multimodal Trajectory Predictions for Autonomous Driving using Deep Convolutional Networks
5.5 其他的分类模型建模
基于隐马尔可夫模型的意图估计 马尔可夫模型
6.基于模型的轨迹预测
6.1 如何将短时轨迹结合长时意图生成长时轨迹
长时轨迹生成 - 轻量化的planner 通过意图估计得到目标车要驶入某个车道并根据运动趋势等得到短时的运动轨迹如何构造出长时预测轨迹
优化目标贴合短时轨迹、符合常识意图
约束条件满足运动学约束 、与地图等信息匹配
寻找一个规划器得到未来的轨迹点并且要做到轻量化。
Planner 三把斧搜索、采样、优化对该问题不适用。使用现有的轨迹生成方式如贝塞尔曲线、样条曲线等。 曲线生成方式
控制点的生成策略 -- 决定曲线的生成。意图预测判断出车道后可以灵活基于地图抽取控制点。
Bezier曲线基本原理 Bezier曲线基本原理
Bezier曲线的数学方法 Bezier曲线的数学方法
基于Bezier曲线的长时轨迹生成过程
意图预测 -- 根据意图查询地图得到车道信息等 -- 长时控制点短时预测轨迹 -- 短时控制点长时控制点短时控制点 -- 短时控制点与长时控制点衔接、插值去重拟合 -- 长时轨迹 基于Bezier曲线的长时轨迹生成过程
6.2 EPSILON: Intention Prediction Network
arxiv.org/pdf/2108.07993.pdf Intention Prediction Network Pipline
Agent历史轨迹 -- 特征抽取 -- 坐标转换/编码 -- 拼接/解码/归一化 -- 候选路径及概率
思考全局归一化是否合适 Intention Prediction Network Structure Intention Prediction Network Application
意图到轨迹使用前向仿真,forward simulation对于交互更加友好些完成长时轨迹推演。 #图森未来创始人陈默终结了造车项目
我的造车创业画上句号了以后也不会再涉足。”
图森未来的创始人之一陈默这样告诉我们。
智能车参考刚刚获悉图森转型AIGC并改名CreateAI后掌舵人陈默决定不再投入造车之前创立的氢燃料重卡公司Hydron准备出售。
Hydron曾有个中文名图灵智卡是为了配合图森自动驾驶业务而生的卡车新势力。
曾在创办第一年以10亿美金70亿RMB估值一鸣惊人但现在也随着图森自动驾驶业务的谢幕走向结局。
70亿造车独角兽要卖了
图森未来的北京总部办公室现在已经挂上了“CreateAI”的牌子。董事长陈默的办公室大门上赫然写着新Title首席制作人。
办公室的陈设充满戏剧性对立桌子上还摆放着重卡发动机模型陈默说是当年合作造车的车企送的而黑板上张贴的则是金庸群侠传的游戏项目资料。
一边是未尽的过去另一边是还未开始的未来。
就在这间办公室中陈默向智能车参考透露了最终决定终止造车项目Hydron寻找买家接手。
并且悉数清盘不做任何保留。这也是陈默目前与汽车、自动驾驶相关的最后一批“硬”资产。
它们包括一辆车长5米7轴距3米4的全尺寸SUV MARK X
非承载车身7座。搭载200度磷酸铁锂电池分双电机和四电机版本续航均超过700公里。
一辆车长5米1轴距3米1的中大型SUV MARK Y
承载式车身5座。搭载112度磷酸铁锂电池有双电机四驱和单电机后驱两个版本续航分别对应520和550公里。
以及一辆车长5米9轴距3米7的全尺寸皮卡 MARK T
底盘形式动力、续航参数和7座全尺寸SUV相同。
三款车都搭载博世的辅助驾驶功能包括最基本的L2全家桶 每款车也有对应的右舵版本。
这两款SUV和一款皮卡车就是Hydron 3年造车的全部成果和最有价值资产。
陈默强调三款车不是PPT而是高度完成状态的准量产车。
从汽车正向研发流程来看Hydron已经完成了最重要的前三个阶段
1概念设计阶段的总体布局、造型设计、油泥模型。 2工程设计阶段的布局、造型验证动力总成、白车身、底盘、内外饰、电气架构设计。 3样车试制阶段风洞、场地、道路等等实验。
甚至在决定停止投入之前已经确定了部分供应链走到了量产前夜。
对于愿意接手的买家来说“Hydron是到手就能直接量产的优质资产”。
并且要价还不高陈默自述在这场交易中只寻求偿还股东投资。
Hydron公开的融资总额是8000万美元约合5.8亿人民币也是Hydron的全部融资。
而如今寻求出售陈默直言 只要价格合理都能接受可以不要求8000万美元。 多少钱算合理国内设计款车至少一个多亿人民币同时还能节省两年设计时间… 至于股东层面陈默说一开始就不存在什么对赌协议而且投资人对Hydron的进展、成果也都认可“尽量偿还投资是达成的一致共识”。
不过有一个明显问题
之前Hydron以卡车新势力身份亮相并且明确和图森自动驾驶落地相互配合这也是投资人认可入局的核心因素。但造车3年后成果却是电动SUV。
为什么发生这样的重大转变投资人又为什么会认可
和图森经历的一系列风波有直接关系吗
Hydron从何而起又为什么要卖
陈默向我们梳理了Hydron的时间线。
图森未来在北美最早合作的卡车厂名叫Navistar陈默回忆当时因为Navistar规模小、业务弱希望借图森的技术“翻身”所以在合作中图森话语权较高能更好贯彻自动驾驶公司的追求和理想。
但2021年大众收购了Navistar合作中的话语权也转向以车厂为主。
图森判断以自己为运营主体的合作形式可能生变后面也被证实。所以在2021年中Hydron被提上日程一开始是作为技术落地的车辆储备随后不久就被确认为全力配合图森的L4量产计划。
当时包括侯晓迪在内的董事会一致通过了相关决议由陈默牵头去做Hydron并且留下了相关会议记录。
陈默着重强调的是侯晓迪自始至终都知晓Hydron的存在而这也成为后来董事会发难、开除侯晓迪的导火索之一。
Hydron造氢能卡车的过程中已有几台样车上路测试实际已经和图森的业务产生了协作。比如陈默透露侯晓迪曾经就传感器的类型位置等等向Hydron提出过要求。
2022年图森高层先后发生了几次重大变动。首先是3月陈默辞任图森董事长6月又退出了图森董事会本人的说法是“专心经营Hydron”也避免给图森带来监管层面的额外麻烦。
随后图森的事件走向失控。
先是6月侯晓迪提出“二选一”于是陈默出面“劝退”吕程让侯晓迪将董事长、CEO、CTO三权集于一身。
随后“以白人为主”的图森董事会发起了对在任的侯晓迪、以及离任的陈默的一系列调查认为图森和Hydron存在不合规的技术转移并且在10月罢免了侯晓迪的一切职务。
陈默说自己对其中的细节不甚知情因为他本人当时在国内忙Hydron相关的事“实在不明白大权在握的侯晓迪怎么就这么轻易被解除职务了”。
但陈默提到当时侯晓迪在面对董事会以及后续监管调查中撒了慌“说对Hydron毫不知情”。
陈默同样表示不理解侯晓迪为何做出这样的表态不过他推测这样的行为可能是董事会将他赶出公司的原因之一。
后面的故事我们详细追踪过。11月陈默回归与侯晓迪联合行使超级投票权清理了旧董事会随即由唯一董事侯晓迪重新任命吕程为CEO、陈默为董事长。
侯、陈、吕重新形成同盟但分歧也越来越严重。
陈默、吕程的观点是因为地缘政治等等不可抗因素图森在北美落地自动驾驶几乎无望所以主张卖掉北美业务转战中国、澳洲、日本等等市场。
但陈默说侯晓迪“坚决不同意一定要在北美做自动驾驶并且在22年底秘密启动了全新的L4级自动驾驶卡车项目”也就是2023年公布的Bot Auto。
此时图森落地北美无望其他海外市场表态又模棱两可于是陈默开始考虑Hydron业务的转型并且最终选择了北美和国内市场都处于空白的全尺寸新能源SUV以及衍生的电动皮卡品类。
时间快进到2024年3月图森最终和北美监管达成“和解”但也彻底失去了自动驾驶落地的机遇海外市场大门紧闭核心技术人才持续流失。
2024年底图森决定转型AIGC赛道专注动漫影视。
因自动驾驶梦想而诞生的Hydron最终也被决定清盘出售。
主导Hydron 3年陈默怎么评价
Hydron之所以走到今天这一步与图森遭遇的地缘政治挫折有很大关系。
最后和北美监管达成的所谓和解协议图森在书面承认唯一的“过错”就是转岗了几个员工到Hydron既无利益输送更谈不上耸人听闻的“安全因素”否则双方也不会以“和解”告终。
对于侯晓迪和管理层之间的分歧陈默评价为“科学家的追求”和“商人特性”的天然冲突谈不上谁对谁错。
不过正是这样的分歧让图森和Hydron在CIFUS禁令发出前错失了最后闪转腾挪的窗口。
至于Hydron本身的业务陈默给予相当高的评价认为它相对国内海外都是优质资产。
首先产品本身属于市场稀缺品类完成度还很高到手即可量产。
其次资金利用率高8000万美金完成3款新能源量产车没有额外负债。
第三没浪费投资人的钱没有对赌协议没有股权纠纷而且Hydron没欠员工一分钱。
如短期无人愿意接盘陈默也做了长期打算目前Hydron团队已经收缩到最小大约10人左右可以用极低成本维持继续寻找买家。
但无论最终Hydron是否成功出手对于陈默而言自动驾驶、造车的生涯都要画上句号以后不会再涉足了。
“做AIGC的成本可控只有自动驾驶的1/5甚至更低2026年图森就能开始赚钱”动漫和游戏也是陈默个人爱好所在。
2024年12月底的图森股东大会结果是包括陈默在内的6名董事全员保留说明股东同样认可支持图森的转型规划。
“如果当年从未参与过图森的任何事务我会比现在快乐得多”——CreateAI 的首席制作人陈默这样感叹和总结自己的图森生涯。 #地极华理魔 元舟远博歌
智驾2024的10个第一
2024年智驾市场竞争已经进入白热化阶段头部企业已经展现出了先发优势。我们汇总了10个行业第一记录2024年的智驾市场。
Momenta
城市NOA市占率第一
最近佐思汽研公布了一项研究数据在2023年1月至2024年10月期间Momenta城市NOA的市场份额达到60%位列第三方智驾公司市场第一。
目前城市NOA规模量产上车的国内第三方智驾供应商主要有5家Momenta、华为Hi模式、BoschWeRide、百度和元戎启行。也就是说在与华为博世百度等大公司PK的过程中Momenta拔得头筹。
Momenta能够突围绕不开3个因素首先是成立时间早Momenta成立于2016年是最早一批智驾公司第二个就是战略选择当时大部分自动驾驶公司都押宝L4自动驾驶Momenta是为数不多坚持渐进式路线的玩家。这也让它获得了一众车企的青睐赢得了不少战略投资包括丰田上汽奔驰都是Momenta的股东这也奠定了双方在后期的合作基础。
最后一个就是技术实力这个其实和前两个有一定的因果关系因为出发得早且路线坚定所以技术积累深。按照官方的宣发口径来看Momenta和元戎是目前唯二实现一段式端到端量产上车的第三方智驾供应商还有一个是主机厂理想。
Momenta CEO曹旭东一直有一个观点将来独立第三方智驾玩家不会超过3个而且是721的市场配比Momenta会是其中一家。至少在今天看来 Momenta的可能性还是很大的。
地平线
计算平台出货量最多的
国内智驾公司
2024年可以说是地平线持续攀升的一年。征程家族累计出货量突破700万2024年4月发布的征程6目前累计已经拿下20合作伙伴。预计2025年出货量将突破千万。
此外蔚来第三品牌萤火虫已经官宣采用地平线方案。至此新势力蔚小理三强地平线已经拿下其二。显然已经成为国内智驾上最具潜力的独角兽公司。
值得注意的是不止计算平台在智驾算法上地平线也在努力引领行业标杆其集合全部优势资源打造的城市领航高阶智驾功能SuperDrive在2024年已经准备就绪并且计划在2025年上半年量产。地平线创始人余凯将其称之为捅破天的智驾技术。和单纯聚焦软件算法的公司不一样地平线软硬结合的能力无疑让智驾能力拥有更多可能性。
极氪
首个自研智驾交卷的传统车企
2024年极氪智驾实现了1年2次提速2024年初计划城市领航在2025年初上线但是8月份直接提升到2024年底然而到了10月极氪直接宣布智驾城市领航功能公测用户推送。速度之快甚至让很多新势力都望尘莫及。
刚刚结束的CES 2025展会上极氪再放大招宣布基于英伟达Thor芯片自研了智驾域控通过低成本、高性能多接口的优势提升极氪在智驾上的平台化能力。
一个值得注意的事情是虽然大部分传统车企目前都在采用第三方智驾公司的方案但也没有丢下自研路线。每家车企基本都有自己的嫡系部队有的是单独的子公司比如长城毫末奇瑞大卓等有的是集团的智驾部门比亚迪研究院上汽研究院吉利研究院等。
在所有转型的车企中极氪无疑是最值得研究的一个样本。它是第一个交卷的企业。甚至从某种程度来说极氪智驾的成败会直接影响所有传统车企对智驾自研的重新评估。因为不管牵头人还是资源供给极氪都堪称传统自研派最豪华的阵容如果极氪都搞不成其他传统自研车企的可能性也不会太大。
理想
智驾成长最快OEM
2024年应该是理想对外阐述智驾理念最多的一年。这一年理想在智驾项目上急下猛药连续实现了两段式端到端到一段式端到端的跨越并且还在预研更新的VLA系统。根本原因在于理想认为智驾已经成了用户购车的首要因素。理想自己内部数据显示其AD MAX车型销售比例从上半年的20%上升到了下半年的50%。
从“端到端VLM”从智能汽车到硅基家人李想甚至“魔怔”地把公司定位都改了并不是一家汽车公司而是一家人工智能公司。2024年理想无疑是智驾上成长最快的公司但智驾除了先进的算法还有工程落地的苦活累活欲速则不达。希望理想能够走得快更要走得稳。
轻舟智航
第一家高阶智驾交付
突破50万的智驾公司
2024年底轻舟智航宣布其「轻舟乘风」NOA智驾方案累计上车量突破50万并且成为第1家达成50万级量产交付的中高阶智驾方案商。这里的高阶智驾主要指的是高速NOA功能。
此外轻舟智航还获得了业内首个基于征程6M的量产新定点。
轻舟智航在智驾圈一直是一个非常励志的存在。它并不是最早一批成立的智驾公司同期成立的很多企业要么倒闭要么目前处境艰难只有轻舟上升势头正猛。2024年连续获得2轮融资高阶方案上车量不断突破并且获得新定点。
这得益于轻舟对市场和技术的敏感度。2021年之前轻舟主要聚焦L4无人小巴。2021年以后随着辅助驾驶量产上车轻舟开启双线并行战略。不管L4还是L2轻舟始终以商业落地作为第一驱动要素。L4聚焦更容易落地的无人小巴L2先发更容易落地的高速NOA。这使得即便在市场艰难时期轻舟也具备一定的造血能力。
博世
第一个智驾交卷的国际Tier1
汽车圈新势力不只是主机厂还包括供应商。相较于地平线Momenta等新科技公司博世在汽车供应商里也算是妥妥地老牌大厂。
外界喜欢说大象难转身但这些对博世并不存在。博世中国仅用了18个月就完成了高阶智能驾驶的量产成为全球首个量产高阶智驾的国际Tier1涵盖城市领航智能泊车等功能。目前已经在奇瑞星途星际元上车并且完成了5次重大OTA。
按照计划博世的两段式端到端无图智驾方案也将在近期推送上车并且计划在2025年年中推出一段式端到端。而基于地平线J6E/M平台开发的博世中阶智驾也计划在2025年年中本土量产交付。
面对来势汹汹的打擂者博世在用实际行动捍卫国际大厂的威严。
文远知行
全球Robotaxi第一股
2024年10月文远知行在纳斯达克上市成为全球通用自动驾驶第一股。
我一直觉得在所有自动驾驶公司里文远是一个比较另类的存在。有两个点值得注意首先是商业化能力自动驾驶很难但文远知行似乎却似乎一直游离在艰难之外在商业化上总能找到见缝插针的机会。文远的L4无人环卫和无人小巴已经获得了规模化运营拥有持续造血能力
第二文远也是全球所有自动驾驶公司中布局最广的企业涵盖自动驾驶出租车、自动驾驶小巴、自动驾驶货运车、自动驾驶环卫车、高阶智能驾驶五大板块。由于商业化问题其他自动驾驶公司一直在收缩聚焦但文远始终坚持多线并行。
2024年以来随着技术突破自动驾驶也在持续迎来利好文远前期的布局最多一旦自动驾驶开花结果收获也就最多。
华为
智驾系统上车最多
2024年华为是国内智驾系统上车车型最多的品牌智选车HI模式差不多10车型。包括问界享界智界尊界共6款车型HI模型长安系阿维塔和深蓝岚图极狐埃安等8款左右总计超过10车型。上车数量越多就意味着更多的数据积累更好的用户反馈来推动系统迭代。
华为在智驾圈一直有极高的影响力但是很多人并不理解到底强在哪。如果单纯把某一项拿出来对比华为都不算是最强的。智驾算法目前上车一段式端到端的有Momenta元戎和理想华为要到今年上半年才能上车一段式端到端。激光雷达最强的是禾赛和速腾芯片最强的是英伟达。
华为的强项主要在两点。一个是智驾的体系能力。华为拥有全套智驾解决方案包括算法软件数据处理算法激光雷达芯片域控等硬件包括再上层的云计算中心系统能力保证了华为的全局掌控力。
另一个是强大的工程能力。在智驾完全实现AI数据驱动之前智驾依然是个堆人力的工作需要大量的人力资源去干更多的脏活累活比如在开城泛化方面有的企业10城为一个网格广州深圳珠海汕头等只要在深圳调试完成之后这个网格里的所有城市全部推送这就导致不同城市的智驾差异性非常大而有些企业开城的网格划分非常细可能5个城市甚至2个城市一个网格每个网格派专门的人员去做开城测试。人力越多意味着开城的网格划分越细体验也就越好。
朗歌科技
CVPR 2024
国际自动驾驶挑战赛最佳选手
自从2023年余承东何小鹏公开抨击高精地图之后高精地图在智驾领域的声音每况愈下。车企们甚至将“无图”宣传作为技术强弱的判定标准。这里“无图”主要指的是没有高精地图
2024年朗歌科技的一条重磅信息将智驾地图重新拉回舞台中央。当年6月5日CVPR 2024 国际自动驾驶挑战赛Autonomous Grand Challenge落下帷幕朗歌科技在无图驾驶Mapless上斩获全球冠军与创新奖。其核心是以HD自动化和轻地图全自动的周天多模态地图大模型为基础利用标精地图提供的道路拓扑先验引入辅助深度监督并提出了一种混合时序融合模块获得了最好的道路拓扑结构认知性能。从而大幅提升智驾在复杂场景下的能力。
智驾的泛化要求确实让高精地图的生存受到了挑战但朗歌等新贵们也在用实际行动告诉主机厂智驾地图不可或缺。
元戎启行
智驾供应商最大单笔融资
2024年以后3年智驾公司将会迎来最后的鏖战阶段。大家都很难再拿到外部融资基本都拼的是自造血能力。在这样的市场大背景下元戎启行拿到了长城汽车的一亿美元融资这是智驾供应商2024年的最大一笔融资。这里默认华为属于主机厂阵营
元戎的突围很大程度上得益于其在技术上的激进策略。元戎身上带着创始人周光很深的激进主义色彩。按照周光的说法从前融合到无图NOA再到端到端方案元戎都是最早提出这些理念的选手。
有主机厂的人透露其实在2023年中旬元戎就搞出来端到端架构并且邀请主机厂的人测试。
元戎智驾之路并非一帆风顺之前聚焦L4和城市快运后来转型L2聚焦城市领航端到端到来之后元戎希望通过一套系统实现城市领航和Robotaxi两个场景的覆盖。好在大决战前夕元戎拿到了充足的弹药。并且建立了深度合作关系。
以上就是2024年智驾行业的10个第一在接下来3年是自动驾驶大规模量产的3年也是竞争最激烈的3年以上选手未必每个都能留在牌桌上但胜者大概率会从他们中产生。拭目以待。 #世界模型与自动驾驶场景生成
框架
mmagichttps://github.com/open-mmlab/mmagic
综述
World Models for Autonomous Driving: An Initial Survey
The JEPA model aims to construct mapping relationships between different inputs in the encoding space by minimizing input information and prediction errors.
Towards Knowledge-driven Autonomous Driving
Embodied AI is a facet of intelligence emphasizing the direct interaction between an intelligent system and its environment, involving perception, understanding, and action.
扩散模型
Diffusion model
扩散模型 - Diffusion Model【李宏毅2023】_哔哩哔哩_bilibili
Diffusion扩散模型大白话讲解看完还不懂不可能
多模态预训练CLIP
Diffusion论文Denoising Diffusion Probabilistic Models
StableDiffusion论文High-Resolution Image Synthesis with Latent Diffusion Models
Diffusers
stable-diffusion-v1-5权重地址runwayml/stable-diffusion-v1-5 at main
pytorch手写Diffusion ModelThe Annotated Diffusion Model
Stable Diffusion with Diffusers
手写扩散模型-diffuers介绍_哔哩哔哩_bilibili
世界模型
GAIA-12023.9.29
MAGICDRIVE2024.1.26
论文地址MAGICDRIVE: STREET VIEW GENERATION WITHDIVERSE 3D GEOMETRY CONTROL
githubhttps://github.com/cure-lab/MagicDrive
Drive WM2023.11.29
https://github.com/BraveGroup/Drive-WM?tabreadme-ov-file
MUVO2023.11.23
多模态生成
DriveDreamer2023.11.27
https://github.com/JeffWang987/DriveDreamer
https://drivedreamer.github.io/
DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation2024.3.11
多视角视频生成
WorldDreamer
https://world-dreamer.github.io/
OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)
Driving with LLMs
DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models2024.2.25
DriveVLM集成了场景描述、场景分析和分层规划的思维链CoT模块
VLM计算量大提出DriveVLM Dual将DriveVLM的优势与传统自动驾驶流水线协同混合
据说可以部署在orin芯片上但猜测只是在orin上跑通还没有大规模部署到车上
DriveVLM识别了一个倒塌的树木并给出了稍微向右偏移的驾驶决策
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
论文地址Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
githubhttps://github.com/wayveai/Driving-with-LLMs
ADriver-I: A General World Model for Autonomous Driving
GAN图生图
CYCLEGAN
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
mmgenerationhttps://github.com/open-mmlab/mmgeneration?tabreadme-ov-file
Lidar GAN
GAN-Based LiDAR Translation between Sunny and Adverse Weather for Autonomous Driving and Driving Simulation #LargeAD
用于自动驾驶的大规模跨传感器数据预训练
论文链接https://arxiv.org/pdf/2501.04005项目主页https://ldkong.com/LargeAD
摘要
本文介绍了LargeAD用于自动驾驶的大规模跨传感器数据预训练。视觉基础模型VFMs的最新进展彻底改变了2D视觉感知但是它们在3D场景理解方面的潜力特别是在自动驾驶应用中仍然没有得到充分探索。本文引入了LargeAD这是一种专门为跨不同现实世界驾驶数据集的大规模3D预训练而设计的多功能、可扩展框架。本文框架利用VFMs从2D图像中提取语义丰富的superpixels它们与激光雷达点云对齐以生成高质量的对比样本。这种对齐有助于跨模态表示学习增强2D和3D数据之间的语义一致性。本文引入了若干项关键创新iVFM驱动的superpixel生成用于详细的语义表示iiVFM辅助的对比学习策略用于对齐多模态特征iiisuperpoint时间一致性以保持跨时间的稳定表示iv多源数据预训练以在各种激光雷达配置上泛化。与最先进的方法相比本文方法在基于激光雷达的分割和目标检测的线性探测和微调任务中均实现了显著的性能提升。在11个大规模多模态数据集上进行的大量实验突出了本文方法的卓越性能证明了在现实世界自动驾驶场景中的适应性、效率和鲁棒性。
总结
本文引入了LargeAD这是一种可扩展且可泛化的框架专门为各种激光雷达数据集上的大规模预训练而设计。本文方法利用视觉基础模型VFMs来生成语义丰富的superpixels将2D图像特征与激光雷达点云对齐以改进表示学习。通过结合VFM辅助的对比学习、superpoint时间一致性和多源数据预训练本文框架在多项3D场景理解任务中实现了最先进的性能包括基于激光雷达的语义分割和3D目标检测。在11个不同数据集上进行的大量实验突出了本文框架在域内和域外场景中的有效性。本文框架不仅在下游泛化方面表现出色还在分布外条件下展现出更优的鲁棒性。消融研究进一步验证了本文设计选择的重要性展现了在预训练阶段加入多个数据集的重要影响以及本文框架的每个单独组件的优势。研究结果突出了LargeAD推进现实世界自动驾驶应用的潜力它提供了能够适应各种传感器配置和驾驶环境的更通用、更具适应性的模型。在未来工作中本文旨在将该方法扩展以加入额外的传感器模态例如雷达和热成像并且进一步扩大自动驾驶系统的跨模态预训练范围。 #海量数据的挑战下如何进行高效场景测试与性能安全评估
01 前言
随着自动驾驶技术的快速发展庞大的测试数据和复杂的场景需求为性能与安全评估带来了巨大挑战。如何高效管理海量数据、挖掘关键场景并满足以Euro NCAPEuropean New Car Assessment Programme欧洲新车安全评鉴协会为代表的严格评估标准已成为行业亟待解决的核心问题。
这不仅关乎技术研发的效率与精度更是智能驾驶车辆进入市场、提升竞争力的关键前提。本文我们将围绕如何应对海量数据所带来的挑战进行探讨分享提高场景测试与性能安全评估的见解。
02 场景测试与性能评估的挑战
在自动驾驶技术的研发与测试过程中“场景”是一个核心概念也是验证自动驾驶系统性能和安全性的关键手段之一。无论是行业专家还是普通关注者谈及自动驾驶测试时都会提到“场景”以及“基于场景的测试”。 图 1 自动驾驶场景概念图
场景通常由静态要素道路、交通标志、建筑物等、动态目标车辆、行人等、环境条件天气、光照等、行为模式变道、急刹车等组成旨在描述车辆可能面临的各种复杂情况。由于内容极为丰富国际标准ISO 34501通过四层抽象分级模型对其进行分类即功能场景、抽象场景、逻辑场景和具体场景后两者便是当下关注的重点。 图 2 四层抽象分级模型与场景测试挑战
对于测试而言除了在各个场景下的性能表现通常还得满足一些法规或者评估标准。例如对于车辆的安全性而言最广为人知的便是Euro NCAP的评级。
Euro NCAP的评级结果不仅会为消费者选购车辆提供重要参考也是诸多汽车制造商和技术开发者研发过程中明确的安全目标。无论是传统燃油车还是智能驾驶车辆获得Euro NCAP的高评分都是进入欧洲市场、提升市场竞争力的重要前提。
然而随着自动驾驶技术的高速发展测试需求与标准的日益复杂化自动驾驶研发与测试中所产生的数据日益增加对逻辑场景与具体场景的需求也逐步攀升这也就为场景测试带来了诸多挑战
海量的测试数据与场景
自动驾驶测试需要处理极其庞大的场景库和测试数据如何高效地管理和利用这些数据成为一大难题。
指标分析与数据管理的难度
随着测试指标的逐渐增加如何对测试结果进行全面、准确的分析以及如何高效地管理测试数据都是亟待解决的问题。
性能与安全评估方法的效率
自动驾驶系统的性能和安全性评估需要高效快捷的方法以应对大规模测试的需求。
真实场景向仿真场景的转换
为了实现重复测试需要将真实场景高效地转化为仿真场景即LogSim到WorldSim的转化。
高昂的测试成本
应对上述种种挑战需要投入大量的资源包括人力、时间和资金。
面对这些挑战我们尝试在云端搭建一个模块化的数据管理与场景挖掘平台并集成Euro NCAP 道路稳健性协议包括速度辅助系统、车道支持系统和辅助驾驶进而实现了高效场景测试与性能安全评估。 图 3 数据管理与场景挖掘概览
03 数据管理与高效分析方法
在自动驾驶测试中海量的驾驶数据与复杂的场景构建是基础同时也是挑战。如何高效地管理这些数据并从中提取出有意义的场景成为验证自动驾驶系统性能与安全性的关键环节。3、4章节将从数据管理、聚合分析、场景提取与评估技术以及场景导出四个方面详细探讨如何高效处理海量数据并挖掘关键场景。
数据管理技术高效处理海量信息
对于场景测试或者以Euro NCAP为代表的性能评估而言通常会产生大量的驾驶数据例如Euro NCAP 2026年新版安全驾驶汽车辅助协议Safe Driving Vehicle Assistance就明确提出部分功能的评估需要满足至少2000公里的测试。
面对海量的驾驶记录与复杂的场景需求数据管理需要兼顾高效性、灵活性与协作性。对此我们尝试基于云搭建模块化的数据管理平台旨在实现驾驶数据的高效处理、评估与检查。
a. 驾驶数据摘要与高级查询
通过鼠标单击查看驾驶记录的摘要信息获取清晰的驾驶数据概览并采用事件Event、操作设计域ODD或场景Scenario三类标签以组合的方式快速查询需要的驾驶记录。 图 4 快速摘要与高级查询
b. 可视化界面与团队协作
基于相机视角、感知还原、GPS轨迹、车辆速度等多维度创建可视化界面对场景进行深入分析。同时采取URL分享的方式实现团队成员之间的高效协作与共同分析数据。 图 5 自定义可视化界面
聚合分析技术从海量数据中洞察规律
除了单一场景的快速查询与分析针对海量驾驶数据的整体规律分析同样至关重要。为此我们使用聚合分析的方法通过多级指标Metrics对驾驶数据进行整理、分类和聚类分析加速发现数据中的潜在规律。 图 6 聚合分析
a. 多级指标的灵活分析
通过采取感知、行为、舒适度等多级指标进行分析。例如当想要了解“自动驾驶系统开启状态”、“特定速度区间”、“白天”的违规率就可以设定对应指标构建指标矩阵与直方图随着指标的增加矩阵与直方图会产生动态变化得以快速掌握概况以及各个指标下统计出的违规率。
b. 一键聚类与场景跳转
聚合分析技术能够基于指标矩阵对驾驶记录进行自动聚类并支持关键场景的快速跳转。单击矩阵中的特定数值即可直接查看对应的场景列表并快速跳转到可视化界面查看场景细节进行深入分析。
04 场景挖掘、评估与OpenX场景导出
为了在大量驾驶数据的挑战下提高场景测试与评估的效率我们基于感知算法从原始驾驶数据中提取出场景将原有的大量里程与时间浓缩为了一系列特定场景并结合了自定义标准与Euro NCAP标准建立了多种预设评估方式保障效率与准确性的同时尽可能节省时间与精力。
场景提取与评估挖掘关键场景与性能见解
如何从大量的驾驶数据中提取有意义的场景并进行性能评估是自动驾驶测试的重要环节。我们通过对激光雷达、相机、GPS等原始传感器输入的数据进行感知从真实或仿真数据中高效挖掘场景提供多维度的性能与安全见解。 图 7 场景挖掘流程示意图
a. 自动清除空驶里程
驾驶数据中通常存在大量没有特殊事件发生的空驶里程占据了大量存储空间但对测试无意义。我们通过设定场景提取的条件例如自车速度、障碍物速度、自车与障碍物纵向距离等自动剔除这些“空驶里程”准确提取出常用场景如SOTIF、ISO 26262、Euro NCAP等标准规定的场景进而节省时间成本。
b. 性能与安全评估
提取的场景可以基于预设的Euro NCAP或自定义标准进行性能评估。例如设定最大速度或碰撞时间TTC等指标就可以快速筛选出不符合预期的场景并通过可视化界面查看详细信息。对于失败的场景一键点击跳转到数据管理与分析平台查看感知还原的场景、相机视频、速度等细节进行深度分析。 图 8 自定义标准与Euro NCAP标准的场景评估
场景导出器从LogSim到WorldSim的转换
为了推动仿真测试的便捷化我们基于相机图像、激光雷达点云、GPS定位信息等原始驾驶数据通过内部的感知算法将其转化为仿真场景完成了从LogSim到WorldSim的高效转换。转化后的仿真场景能够被导出为仿真所需的ASAM标准文件格式OpenSCENARIO与OpenDrive实现数字孪生。 图 9 场景导出器一键导出与自定义导出
数据输入支持多种数据格式如RosBag、LCM、ADTF等并可以根据需求自定义导出场景的时间范围最长30秒导出的场景文件可以直接导入支持标准OpenX格式文件的仿真器如aiSim5根据需要进行修改后运行仿真测试。 图 10 联动aiSim仿真器的场景仿真示例
05 集成式Euro NCAP道路评估器
为了更快速且可靠地对驾驶系统性能安全进行评估并帮助在未来Euro NCAP的安全辅助评估中拿到高评分数据管理与分析平台DAP内将集成Euro NCAP道路评估器On-road Evaluator获得基于海量驾驶数据的深刻见解。
基于Euro NCAP协议的三大评估板块
通过在数据管理与分析平台中集成Euro NCAP道路评估器可以支持对道路ADAS性能快速提供评估结果减少评估时间和成本同时确保严格遵守既定的标准帮助在评定中获得更高的星级。 图 11 道路评估器三大评估板块
Euro NCAP道路评估器主要针对Euro NCAP 2026协议归纳出三大板块进行评估
SASSpeed Assist System速度辅助系统LSSLane Support System车道支持系统ADAssisted Driving辅助驾驶
这些板块进一步被细分为多个功能模块例如AEB自动紧急制动、LKA车道保持辅助、SLIF速度限制信息功能等覆盖了智能驾驶车辆在不同场景下的关键安全功能。
Euro NCAP道路评估器工作流及特点
通过道路评估器可以快速测试ADAS功能例如SLIF与LKA并快速评估Euro NCAP KPI自动生成反馈报告使得直击问题根源与优化系统性能变为可能进而在最终评定中得以获得更高的星级。 图 12 Euro NCAP道路评估器工作流程
道路评估器的工作流分为以下几个步骤
基于参考传感器硬件设备采集驾驶数据使用 Euro NCAP On-Road Evaluator 进行数据处理基于 ODD 的 Euro NCAP 道路 KPI 评估快速得到 KPI 计算和评分的反馈
通过上述工作流Euro NCAP道路评估器便能够做到在完全遵循Euro NCAP中关于SAS、LSS、AD的要求的前提下基于操作设计域ODD对车辆进行快速评估节省大量时间和资源。 图 13 速度限制信息功能示意图SLIF
结合DAP的基础功能模块道路评估器可以实现数据可视化、相机视图、数据管理的定制化功能如图13所示便于深入研究特定的失败事件或异常场景。在此基础上通过精确的评估算法道路评估器能够避免代价高昂的返工最大限度上节省该方面的成本。
06 结语
在自动驾驶技术的研发与测试中场景测试是验证系统性能与安全性的核心手段。康谋IVEX方案通过高效的数据管理、场景挖掘与性能评估技术解决了海量数据处理、复杂场景构建、高昂测试成本等难题并深度耦合Euro NCAP相关协议推动基于真实世界场景的安全评估标准化。
通过数据驱动的方式IVEX方案不仅提升了系统的测试效率还能够助力智能驾驶车辆在Euro NCAP评定中获得更高评分加速自动驾驶技术的研发与落地为行业发展提供重要支撑。 #DiffusionDrive论文解读
原文DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
作者单位华中科技大学 地平线
发表时间2024.11
项目地址GitHub - hustvl/DiffusionDrive: Truncated Diffusion Model for Real-Time End-to-End Autonomous Driving
Disclamer
这篇总结仅仅列出了论文中的精华部分作者的动机发现的问题以及如何解决这些问题。其中有一些个人的理解一般会放在括号或者引用字体中如有错误还望和大家一起讨论更正!
简介
本文将diffusion的网络结构的思想引入到端到端自动驾驶的任务中并着重解决了
1 多步降噪带来的计算量问题
2模态坍缩的问题
方案亮点
加入了prior multi-mode anchors来减少diffusion中的计算量让模型能够从anchored Gaussian Distribution里面学习到denoising从而得到最终的多模态轨迹规划。 解读这里的改进实际上是把random Gaussian noise改成了基于“预先设计好的多条可能的轨迹线”也就是文中多次提到的anchors来采样gaussian noise。相当于从源头上输出上就缩小了模型的搜索空间。 级联(cascade)的diffusion decoder加强模型与场景上下文的互动
效果
在降噪阶段有10倍的速度提升只需要2步去噪在planning-oriented NAVSIM数据集上达到88.1PDMS在4090显卡上的推理速度为45 FPS
Introduction
之前的一些work(Transfuser, UniAD, VAD)直接去回归一条确定的自车轨迹没有考虑到驾驶行为的不确定性和多模态性。直到VADv2中把连续的动作空间离散化成一系列固定的anchor轨迹4096个anchors然后在预测出的置信度上去采样这些anchors来得到多模态的轨迹预测。然而这样做的缺点是“预先定义好的anchor轨迹”这本身就限制了预测轨迹的数量和质量——简而言之无法覆盖全部场景。
与之相比diffusion模型可以通过去噪过程基于高斯分布在连续的动作空间来采样多模态的驾驶动作。
一些早期的尝试直接在Transfuser的模型基础上把单模态轨迹回归的方式替换成了简单的diffusion策略确定的mlp-regression替换成conditional diffusion model但是发现了两个问题(1) 20步的去噪步骤带来了极大的计算量延时从0.2ms -- 6.5ms (2) 从高斯噪声采样得来的轨迹之间有非常严重的overlap甚至坍缩成了单模态输出。
由此引出了改进点将高斯分布分割成多个以prior anchors为中心的sub-Gaussian distributions——叫做anchored Gaussian distribution。利用truncated diffusion policy把去噪的步骤从20降低到了2
为了加强conditional scene context使用了基于transformer的diffusion decoder会与感知模块的structured queriesBEVPV features一起交互通过一个sparse deformable attention机制。另外作者引入了一个cascade的机制来在每一步去噪步骤对轨迹重建进行refine。
主要贡献点
第一次在端到端自动驾驶领域引入了diffusion模型并提出了一个truncated diffusion策略来解决原始diffusion模型中的“模态坍缩”和大计算量的问题。设计了一个高效的diffusion decoder与conditional information进行交互达到了更好的重建效果。在NAVSIM数据集上达到了88.1 PDMS的跑分在4090显卡上的推理速度为45 FPS展示了DiffusionDrive可以生成多模态且可行的轨迹
Method3.1 Diffusion简介
Conditional diffusion model
一种forward diffusion的过程慢慢地在data sample中加入噪声 3.2 Vanilla Diffusion Policy存在的问题3.2.1 将Transfuser变成conditional diffusion model
将模型中的MLP回归层替换成基于UNet架构的[1]。在评估过程中采样了一个随机噪声然后逐步进行refine20步相比于原始的Transfuser这个改动给planning跑分带来了小幅度的提升PDMS↑ 0.6。但同时带来了两个巨大的问题
问题1模态坍缩
作者从高斯分布中随机选取了20个噪声作为初始状态并用20步对其进行去噪过程。如下图所示20步之后所有不同的输出模态都坍缩成了几乎是同一条轨迹。
问题2计算量大
20步的去噪过程来将随机噪声变成一个可执行的轨迹计算量太大将原本的FPS从60降低到了7.
3.3 解决方案 - Truncated Diffusion
因为人类驾驶员是有固定的驾驶模式的所以决定不再从标准的高斯分布中随机初始化而是设计了一个anchored Gaussian distribution。
Anchored Gaussian Distribution
一、训练阶段 二、推理阶段
输入的初始状态还是从anchored Gaussion distribution中采样得到“噪声轨迹”在每一步的去噪过程中上一步得到的预估轨迹会传递到下一步最终预测出条轨迹和其对应的置信度更新规则在每次得到了当前timestep的预测之后作者使用了DDIM[2]的更新规则来为下一个timestep去采样轨迹优点训练时使用的预测轨迹数不会影响到推理时的预测轨迹数。也就是,可以是任意数字可以根据不同部署平台的计算资源任意调整。
3.4 模型结构
Diffusion Decoder
输入从anchored Gaussian distribution采样来的噪声轨迹使用deformable spatial cross-attention来与BEV或者PV特征进行交互这个交互是基于轨迹坐标系的想必是根据轨迹的坐标点进行reference point的选择在轨迹features和agent/map信息之间做cross attention然后接上一个FFNTimestep Modulation layer用来对diffusion timestep信息进行编码而后接上一个MLP来预测置信度以及offset(相对于初始的噪声轨迹坐标当前层的diffusion decoder layer的输出会作为下一层decoder的输入在推理时使用这些cascade diffusion decoder来逐步对轨迹进行去噪并且在不同的denoising timestep使用的参数是共享的。最终选择置信度最高的轨迹作为输出。
实现细节
网络结构
backboneResNet34Diffusion Decoder Layer:
spatial cross-attention只和BEV features做交互和Transfuser保持一致只和agent做cross-attention使用2层decoder layers使用20个聚类得到的anchor轨迹
推理时仅使用2个denoising steps并选择top1置信度对应的轨迹作为最终输出
输入
使用了3个前向摄像头的图像信息剪裁并下采样concat在一起形成1024x256的输入尺寸栅格化的BEV LiDAR
训练
在navtrain数据集上从头开始训练100个epochs优化器 AdamW8张Nvidia 4090显卡batch size 512/8 64学习率 6
评估
没有使用test-time augmentation #xxx #xx