当前位置：首页 > news >正文

邯郸网站制作哪家好WordPress拍卖模板

news 2025/12/16 22:14:37

邯郸网站制作哪家好,WordPress拍卖模板,长沙推广软件,网站域名能改吗我自己的原文哦~ https://blog.51cto.com/whaosoft/12358456 #GaussianPretrain 万能3D高斯预训练表示#xff01;爆拉3D检测、Occ、高精地图等四大任务#xff01; 受Tesla的技术的推动#xff0c;越来越多的厂商开始走纯视觉的路线#xff0c;多数方案还…我自己的原文哦~ https://blog.51cto.com/whaosoft/12358456 #GaussianPretrain 万能3D高斯预训练表示爆拉3D检测、Occ、高精地图等四大任务受Tesla的技术的推动越来越多的厂商开始走纯视觉的路线多数方案还是集中在从多视图输入图像中提取鸟瞰图BEV特征来解决下游目标检测、在线地图等各种应用。尽管有监督的方法还是占主导地位但是它们非常依赖精确的GT标注成本高、难度大往往成为一个比较显著的瓶颈。相反大量且易于获取的未标记数据为提高性能提供了一个充满希望的途径。这就是所谓的自监督预训练技术其核心思想是通过利用精心设计的代理任务从丰富的未标记数据中学习有意义的表示。然而当前的一些方案要么无法捕捉到有效的几何信息要么无不能学习到详细的纹理信息。 3D Gaussian Splatting3D-GS以点云的形式表示为场景重建提供了强大的表示通过位置、颜色、旋转、缩放和不透明度等属性编码几何和纹理信息。正是受到3D-GS在有效场景表示和Masked autoencodersMAE在2D图像自监督学习中的成功的启发作者提出了一种新颖的预训练方法GaussianPretrain它结合了3D-GS和MAE方法用于3D视觉学习中的预训练任务。作者的方法包括两个关键创新 LiDAR深度指导掩码生成器。为了提高效率作者只关注从多视图图像中的有限数量的有效掩码补丁中学习高斯信息。这些补丁由MAE策略识别并进一步过滤只包括那些具有LiDAR深度监督的补丁。基于射线的3D高斯锚点指导策略对于每个LiDAR投影像素执行射线投射操作到3D空间以采样体素内的点。作者引入了一组可学习的高斯锚点来指导从3D体素中作为体积LiDAR点的高斯属性的学习并预测相关属性例如深度、不透明度。这使得模型能够通过3D Gaussian Splatting同时理解场景的几何和纹理信息。论文链接https://arxiv.org/pdf/2411.12452 相关工作自动驾驶中的预训练使用对比学习和掩码信号建模来捕获语义和纹理信息在2D图像上的预训练已经取得了巨大的成功。但是自动驾驶的视觉预训练需要准确的几何表示。目前有的研究比如UniScene和OccNet利用占用预测进行预训练而ViDAR 从历史帧图像预测未来的LiDAR数据。尽管这些方法在捕获几何信息方面是有效的但却无法学习详细的纹理信息。相反像Self-OCC 、UniPAD 和MIM4D 这样的方法使用NeRF 来渲染RGB图像和深度图学习了纹理但几何信息有限。OccFeat 在占用预测期间使用知识蒸馏从图像基础模型转移纹理信息但会产生高昂的预训练成本。相比之下作者的工作引入了3D Gaussian Splatting进行自动驾驶的视觉预训练有效地捕获纹理和几何信息来解决这些限制。从NeRF到3D-GS Neural Radiance Fields (NeRF) 通过隐式表示场景的颜色和密度参数化多层感知机MLP结合体积渲染技术实现了令人印象深刻的渲染质量。后续工作已成功将NeRF扩展到各种任务但是这些工作都需要针对每个场景来优化由于优化和渲染速度慢限制了它们的效率。相比之下3D Gaussian Splatting 通过各向异性高斯显式表示场景通过可微光栅化实现实时渲染。然而由于依赖于特定场景的优化它倾向于过度拟合特定场景。最近的方法通过预测高斯参数的前馈方式来缓解这个问题这样就不需要针对每个场景来优化了。例如GPSGaussian 从图像对执行极线校正和视差估计依赖立体图像和真实的深度图。同样Spatter Image 专注于从单一视图重建单个对象的3D结构。这两种方法因为效率低仅限于对象重建并且依赖于特定的输入格式如图像对或单一视图。在本文中作者将3D Gaussian Splatting扩展到视觉预训练任务中通过在3D空间中预设固定位置的3D高斯锚点克服了与视图数量和深度图需求相关的问题标志着3D-GS的新应用。 3D Gaussian Splatting 3D GS由于其高效的光栅化设计和显式表示在场景表示、编辑和新视角合成方面展现出强大的能力。通常场景由一组高斯组成这些高斯通常从重建方法或LiDAR数据中得到的点云初始化而来。每个高斯被赋予可学习的属性包括方向、颜色、位置、尺度和不透明度。在渲染过程中这些3D高斯被使用可微光栅化投影到2D图像平面上。对于场景表示任务通过将渲染输出与真实图像进行监督迭代优化高斯属性。对于3D空间中的一个高斯点它被定义为其中和分别指的是高斯的均值中心和3D协方差矩阵。投影到2D后有2D协方差矩阵其中视图变换由表示雅可比矩阵对应于变换的线性近似。最后像素颜色是从N个有序高斯中渲染出来的混合方程为其中是用球谐表示的高斯颜色是这个高斯对当前像素的不透明度影响。是透明度。方法论图3展示了作者GaussianPretrain的结构一个使用3D-GS表示进行视觉预训练的简单、创新且高效的框架。给定带有有效掩码补丁的多视图图像作者的目标是通过解码每个场景的高斯参数来重建RGB、深度和占用其中、、和分别是3D高斯的位置、不透明度、协方差和颜色信息K表示最大高斯锚点的数量。 LiDAR 深度引导掩模生成器受MAE 的启发作者对多视图图像应用随机补丁掩码表示为M。此外稀疏卷积被用来替代图像主干中的传统卷积如SparK 的实现增强了性能和泛化能力。为了计算效率作者只关注从有限的一组有效掩码补丁中学习高斯参数。此外作者通过检查LiDAR点是否在某个深度范围内来双重检查掩码区域。如图4所示如果一组点投影到图像中的掩码补丁并且它们的深度落在[a, b]的范围内掩码区域将被标记为有效。这种策略确保作者的模型集中于前景避免了对天空等不相关背景元素的不必要关注。基于射线引导的 3D 高斯锚点为了使模型能够同时理解场景的几何和纹理信息作者引入了一系列在3D空间中的可学习高斯锚点。这些锚点引导从3D体素网格中派生的高斯属性的学习被视为体积LiDAR点。考虑由表示的LiDAR投影像素它对应于从相机延伸到3D空间的射线R。沿着这个射线作者采样D个射线点其中是沿射线的相应深度。每个在有效掩码区域M′中的采样射线点p可以立即反投影到3D空间使用投影矩阵摘要作为3D高斯锚点。这种策略不仅消除了完整图像渲染的需要显著减少了内存使用而且还实现了RGB、深度和占用的同时重建。体素编码在大多数感知任务中通常使用视图变换器生成鸟瞰图BEV特征然后用于后续的下游任务。值得注意的是作者的预训练方法与任何类型的视图变换器兼容。在作者的基线模型UVTR 中采用lift-splat-shoot (LSS)方法并将通道维度扩展以包含高度维度产生3D体素特征其中C、H、W和Z分别代表通道数以及沿x、y和z轴的维度。此外对于每个LiDAR投影像素作者执行射线投射操作从3D体素网格V中提取Nt个采样目标体素其中存在高斯锚点。 Gaussian 参数解码如图3所示通过将概念化为3D高斯锚点这种统一表示使作者能够高效地捕获高质量、细粒度的细节提供对场景更全面的了解。特别地每个3D高斯锚点由属性特征化所提出的高斯映射G定义为其中x是3D空间中高斯锚点的位置、、、分别代表颜色、旋转、缩放和不透明度的高斯参数图。由于多视图图像中的重叠区域像素级的高斯参数预测可能会导致由于重叠splats引起的歧义。相比之下作者认为直接从3D体素特征预测高斯参数是更好的选择。给定体素特征V和中心坐标x作者使用三线性插值来采样相应的特征f(x)如下高斯参数图由预测头生成定义为h MLP(·)由多个MLP层组成。每个预测头专门设计用于根据采样的特征f(x)回归特定参数。对于颜色和不透明度参数作者使用sigmoid函数进行范围[0,1]的回归如下所示其中、分别表示颜色和不透明度的头。在用于形成高斯表示之前旋转图应该被归一化因为它表示一个四元数以确保单位大小而缩放图需要激活以满足其范围如下所示其中、分别表示旋转头和缩放头。通过重构信号来监督为了在MAE策略下更好地重建掩码区域作者使用从高斯表示派生的不同重建信号来监督学习过程。具体来说RGB、深度和占用信号是基于有效掩码补丁中预测的高斯锚点参数解码的。 RGB Reconstruction. 由于作者不需要重建任意视角的图像作者直接预测固定视点的RGB而不是使用球谐系数。在预测高斯锚点参数后作者使用GS中的相关方程来解码颜色信息以渲染每个目标重建像素的图像RGB值图表示为。具体来说方程中的值被预测的RGB替换。 Depth Reconstruction. 受NeRF风格体积渲染中的深度实现启发作者以类似于RGB重建的方式整合每个splat的深度。作者从3DGS参数近似每个像素的z深度。该过程如下其中n是高斯锚点的数量是第i个高斯锚点在视图空间中的z深度坐标实现了高效的深度渲染计算开销最小。是图像的深度图。 Occupancy Reconstruction. 3DGS点的不透明度属性自然适用于视觉感知特别是占用预测任务。与GaussianFormer不同后者使用不透明度进行语义逻辑作者直接将不透明度解释为占用位置的指示。完全不透明的高斯锚点表示在x处存在被占用的位置。形式上对于每个目标体素作者在体素内的高斯锚点中取最大不透明度值来表示占用概率表示为。这种直接将不透明度映射到占用的方法为利用3D Gaussian Splatting进行占用预测提供了自然而有效的方式。其中k是目标体素中的高斯锚点数量。 Loss Function. 总结来说整体预训练损失函数由颜色损失、深度损失和占用损失组成其中 , 是每个射线的GT颜色和深度。表示占用的GT如果它包含至少一个LiDAR点则被认为是占用的。和分别是目标像素和目标体素的计数。实验结果作者使用nuScenes数据集来训练和验证。不同任务上的结果 3D Object Detection. 作者在表1中比较了GaussianPretrain与以前SOTA方法的结果。以UniPAD作为基线该基线是在UVTR-C/StreamPETR上实现的。作者的方法在NDS和mAP上分别超过了UniPAD-C 0.8和0.7个百分点。与StreamPETR相比改进进一步获得了0.9 NDS达到了48.8和38.6在NDS和mAP上达到了没有任何测试时增强的现有最先进方法的水平。 HD Map Construction. 正如表2所示作者评估了其训练模型在nuScenes数据集上对HD地图构建任务的性能。这项任务要求模型理解道路拓扑和交通规则需要对场景的纹理信息有详细的了解。作者使用MapTR 来评估GaussianPretrain捕获这些信息的能力。得益于作者有效的高斯表示预训练MapTR在mAP上实现了1.9%的改进。 3D Occupancy Prediction. 高斯锚点的不透明度属性自然适合占用预测任务。在表3中作者在Occ3D-nuScenes上进行了3D占用预测的实验。表中报告了SOTA方法的性能这些性能记录在Occ3d 的工作中。作者在BEVFormer 和PanoOCC上实现了作者的框架比BEVFormer提高了0.6% mIoU的性能比SOTA方法PanoOCC进一步提高了0.8% mIoU。这也突出了作者预训练图的有效性。预训练方法上的结果作者以在ImageNet上预训练的UVTR-C作为基线并在表4中比较了GaussianPretrain与以前的预训练方法。 DD3D利用深度估计进行预训练。SparK将MAE纳入预训练方法。FCOS3D在预训练阶段使用3D标签进行监督。UniPAD基于NeRF的渲染预训练范式。作者的GaussianPretrain将3D-GS整合到视觉预训练中大大提高了7.1%的NDS和9.0%的mAP。它优于所有其他方法分别达到了32.0 NDS和32.3 mAP。消融实验 GaussianPretrain’s losses 为了验证每个重建信号的有效性作者在UVTR和BEVFomer上进行了3D检测和占用任务的实验。RGB损失引导模型从重建图像中学习场景的纹理信息而深度损失鼓励模型在2D平面上学习几何信息尽管这本身不足以捕获完整的3D几何信息。相比之下占用损失监督模型在3D空间内学习全面的几何信息。如表7所示每个组成部分都做出了积极贡献当全部使用时取得了最佳结果。 Gaussian Anchor Numbers 作者进行了消融研究以检查不同数量的高斯锚点对性能指标的影响如表8所示。在达到1024个射线时观察到最显著的增益超过这个数量相对于额外的资源需求改进较小。 Efficiency consumption 基于NeRF的方法通常受到慢收敛和高GPU内存消耗的困扰。相比之下作者的基于3D-GS的方法提供了可比的渲染质量并且具有更快的收敛速度和更优越的效率用于自由视图渲染。在表9中作者比较了NeRF基础的UniPAD和作者的解码器模块之间的效率和内存消耗。值得注意的是GaussianPretrain明显减少了约30%的内存使用并减少了大约40.6%的延迟同时保持了相似的参数大小。 Supervised Pre-training 作者展示了GaussianPretrain在减少对注释的依赖方面的有效性通过微调UVTR从完整数据集到1/4子集的范围。如图5所示作者的方法在只有一半监督样本的情况下超过了基线5.5% mAP即32.0% mAP vs. 26.5% mAP。这表明GaussianPretrain可以有效利用未标记数据来补偿减少的监督即使在注释较少的情况下也能提高性能。 Different Conditions 作者在表6中报告了在不同距离、天气条件和光照情况下的性能这得益于作者在UVTR-C上有效的预训练GaussianPretrain实现了卓越的鲁棒性和整体最佳性能。总结在这项工作中作者首次将3D Gaussian Splatting技术引入视觉预训练任务。作者的GaussianPretrain在各种3D感知任务中展现出显著的有效性和鲁棒性包括3D目标检测、高清地图重建和占用预测同时具有效率和较低的内存消耗。不过当前框架仍然存在某些局限性。特别是它没有明确地结合时间或多模态信息这两者对于许多自动驾驶应用至关重要。在未来的工作中作者计划扩展GaussianPretrain以利用这些信息并进一步提高其性能。 #具身智能训练数据集具身智能训练要求智能体通过与环境的物理交互来学习智能行为数据集对于具身智能的训练效果有着至关重要的影响提高训练效果的根源在于使用丰富多样的数据集让具身智能体接触到各种不同的情况从而学习到更广泛的技能和应对策略。然而数据集的数据采集过程复杂且成本高昂数据标注工作往往需要专业知识和大量的人工劳动。 ARIO数据集 - 机器人控制数据集链接https://openi.pcl.ac.cn/ARIO/ARIO_Dataset 项目链接https://imaei.github.io/project_pages/ario/ 论文链接https://arxiv.org/pdf/2408.10899 ARIOAll Robots In One是鹏城实验室建立的大规模统一数据集旨在解决现有数据集在开发多功能通用实体智能体方面的不足。ARIO支持 5 种感官模态基于时间戳对齐多模态数据采用统一数据架构有统一配置增强数据多样性涵盖多种数据来源1从真实场景收集使用 Cobot Magic 平台双手机器人移动操作平台、Cloud Ginger XR - 1 平台5G 轮式人形云机器人。2从模拟平台生成包括Habitat 的对象导航任务、MuJoCo 的操作任务、SeaWave 的操作任务。3从开源数据集转换基于 Open X - Embodiment 数据集、基于 RH20T 数据集、基于 ManiWAV 数据集。 ARIO 数据集可用于训练具身智能体以提高它们在各种任务和环境中的性能和适应性。ARIO拥有多模态特性包含 2D 和 3D 视觉数据、触觉、声音和文本形式的数据使得开发者可以在多种任务上进行模型训练解决了多个现有数据集之间数据结构不一致的问题显著减少前期数据清洗和预处理的时间。 G1数据集 - 人形机器人操作开源数据采集的链接https://github.com/unitreerobotics/avp_teleoperate 开源学习算法的链接https://github.com/unitreerobotics/unitree_IL_lerobot 开源数据集和模型的链接https://huggingface.co/UnitreeRobotics 宇树科技公布了开源 G1 人形机器人操作数据集用以训练人形机器人适配多种开源方案。宇树 G1 人形机器人操作数据集具有以下特点1多样化的操作能力展示通过演示视频可以看到G1 人形机器人能够完成拧瓶盖倒水、叠三色积木、将摄像头放入包装盒、收集物品并存储、双臂抓取红色木块并将其放入黑色长方形容器中等复杂操作显示出高度的灵活性和实用性。2数据采集方式创新使用苹果的 Vision Pro 对 G1 进行遥操作控制。3丰富的数据维度数据集中的图像分辨率为 640×480每个手臂和灵巧手的状态及动作维度为 7。目前包含拧瓶盖倒水、叠三色积木、包装摄像头、存储物品、双臂抓取和放置等五大类操作的数据集。 RT-1数据集 - 机器人操作论文链接https://robotics-transformer.github.io/assets/rt1.pdf 开源链接https://github.com/google-research/robotics_transformer 项目主页https://robotics-transformer2.github.io/ RT-1 数据集是用于训练和评估机器人学习模型 RT-1 的数据集旨在构建一个能够处理多种任务、对新任务和环境具有良好泛化能力的机器人系统。数据收集使用 13 个来自 Everyday Robots 的移动机械臂在三个厨房环境两个真实办公室厨房和一个训练环境中收集数据。数据由人类提供演示并为每个情节标注执行任务的文本描述指令通常包含动词和描述目标对象的名词。 RT-1 能够执行超过 700 个语言指令根据指令中的动词将其分组为不同技能如拾取、放置、打开和关闭抽屉、取放抽屉中的物品、直立放置细长物品、推倒物品、拉餐巾和打开罐子等。涵盖多种行为和对象通过增加 “pick” 技能的对象多样性来提升技能的泛化能力并在实验中扩展了技能包括一些现实的长指令任务如在办公室厨房场景中的复杂操作。 RT-1 包含超过 130k 个机器人演示这些演示构成了 744 个不同的任务指令涉及多种技能和大量不同的对象。数据集中的技能和指令涵盖了多个领域如物体操作、环境交互等以支持机器人在不同场景下的任务执行和学习。 QT-Opt - 抓取论文链接https://arxiv.org/pdf/1806.10293 开源链接https://github.com/quantumiracle/QT_Opt QT-Opt 数据集是为训练机器人的视觉抓取策略而收集的大规模数据集通过 7 个机器人在四个月内收集了超过 580k 次真实世界的抓取尝试旨在让机器人学习通用的抓取技能能够在未见过的物体上实现高成功率的抓取。在收集数据集时使用 7 个 KUKA LBR IIWA 机械臂每个机械臂配备一个两指夹爪和一个位于肩部上方的 RGB 相机来收集数据。数据收集过程中为了使模型能够学习到通用的抓取策略使用了多样化的物体这些物体在训练过程中定期更换每 4 小时更换一次在工作时间内夜间和周末则保持不变。收集的数据包括机器人的相机观察RGB 图像分辨率为 472x472、夹爪状态开或关的二进制指示以及夹爪相对于地面的垂直位置等信息。数据收集总共耗时约 800 机器人小时数据量达到 4TB足以训练出具有高成功率的抓取策略模型。 BridgeData - 机器人学习与泛化论文链接https://arxiv.org/pdf/2308.12952 项目主页https://rail-berkeley.github.io/bridgedata/ BridgeData V2 是一个用于大规模机器人学习研究的数据集旨在促进机器人学习方法的发展包含丰富的机械臂操作行为数据以支持多种任务和环境下的技能学习与泛化研究。数据集包含 60,096 条轨迹其中 50,365 条专家演示轨迹和 9,731 条脚本策略收集的轨迹。涵盖 13 种技能包括基础操作如拾取和放置、推动、重新定向物体以及更复杂的操作如开门、关门、抽屉操作、擦拭表面、折叠布料、堆叠积木、扭转旋钮、翻转开关、转动水龙头、拉链操作和使用工具清扫颗粒状介质等。这些技能适用于多种环境和物体确保学习到的技能具有通用性。包含 24 种环境如厨房、水槽、桌面等以及 100 多种物体。环境和任务的多样性使数据集能够支持多种学习方法的评估和研究有助于机器人学习在不同场景下的任务执行和技能泛化。 TACO - RL - 长时域操作论文链接http://tacorl.cs.uni-freiburg.de/paper/taco-rl.pdf 项目链接http://tacorl.cs.uni-freiburg.de/ 数据集链接https://www.kaggle.com/datasets/oiermees/taco-robot TACO - RL 使用的数据集是通过在模拟和真实环境中对机器人进行远程操作收集的包含机器人与环境交互的状态 - 动作序列用于训练分层策略以解决长时域机器人控制任务支持机器人从无结构的游戏数据中学习通用技能并实现复杂任务的执行。收集的数据为无结构的游戏数据未针对特定任务进行标记包含多种机器人操作行为如推动、抓取、放置物体操作抽屉、滑动门和与 LED 按钮交互等具有丰富的多样性和复杂性。数据集用于训练低层级策略通过对无结构数据进行自动编码学习从潜在计划到动作的映射提取一系列基本行为原语。高层级策略通过离线强化学习RL利用后见之明重标记技术进行训练。 CLVR - 遥控数据集链接https://github.com/clvrai/clvr_jaco_play_dataset CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集共 14.87 GB由南加州大学和 KAIST 的研究团队发布它提供了 1,085 个遥控机器人 Jaco2的片段并配有相应的语言注释。 FurnitureBench - 长时域操作论文链接https://arxiv.org/pdf/2305.12821 项目链接https://clvrai.github.io/furniture-bench/ 数据集链接https://clvrai.github.io/furniture-bench/docs/tutorials/dataset.html FurnitureBench是一个用于测试真实机器人复杂长时域操作任务的数据集。数据集聚焦于家具组装这一复杂长时域操作任务其任务层次结构长涉及家具部件的选择、抓取、移动、对齐和连接等步骤平均任务时长在 60 - 230 秒600 - 2300 低层级步骤。任务要求机器人具备多种复杂技能如精确抓取不同家具部件抓取姿态各异、部件重定向通过拾取放置或推动实现、路径规划避免碰撞已组装部件、插入和拧紧精确对齐并重复操作等。通过使用 Oculus Quest 2 控制器和键盘对机器人进行远程操作来收集数据历时 219 小时涵盖八个家具模型。针对不同家具模型和初始化水平低、中、高收集了不同数量的演示数据。每个演示的时间步长因任务长时域性质而在 300 - 3000 步左右。数据收集过程中通过使用不同颜色温度的单光面板并改变其位置和方向以及每集随机化前视图相机姿势来增加数据多样性。 Cable Routing - 多阶段电缆布线论文链接https://arxiv.org/abs/2307.08927 项目链接https://sites.google.com/view/cablerouting/home 数据集链接https://sites.google.com/view/cablerouting/data 该数据集是为训练机器人的电缆布线策略而收集的用于支持分层模仿学习系统使机器人能够学习执行多阶段电缆布线任务应对复杂的电缆操作挑战。数据集中包含了多种电缆形状、夹取位置和方向的变化以及不同数量夹子一夹、两夹、三夹的布线任务数据有助于训练出具有泛化能力的策略。针对单夹电缆布线任务通过人类专家远程操作机器人在不同位置和夹取方向上执行任务来收集数据。共收集 1442 条夹取轨迹每条轨迹时长约 3 - 5 秒包含约 20 个时间步每个时间步包含机器人相机图像四个、机器人配置状态向量和人类远程操作员的指令动作。在训练单夹布线策略和其他原语后通过人类专家按顺序触发原语以执行完整的多阶段电缆布线任务来收集数据。在一夹、两夹或三夹的场景下电缆初始状态为平放在桌子上的任意形状专家输入原语机器人执行同时记录整个轨迹的感官信息。 RoboTurk - 模仿学习论文链接https://arxiv.org/abs/1811.02790 项目链接https://github.com/RoboTurk-Platform/roboturk_real_dataset 数据集链接https://roboturk.stanford.edu/dataset_real.html ROBOTURK 数据集是通过众包平台收集的用于机器人学习任务的大规模数据集旨在解决机器人模仿学习中数据收集困难的问题使机器人能够从大量的人类演示中学习操作技能应对复杂的操作任务。数据涵盖了不同用户在多种任务和操作条件下的演示包括不同物体的操作如 lifting 任务中的立方体、picking 任务中的各种物品、assembly 任务中的螺母等以及不同的操作场景有助于训练出具有泛化能力的机器人策略。 #量产之问 1.大佬想问一下有没有通过视觉大模型来做行为预测的工作呀回答1应该是有的有类似occworld的工作九月份有个综述可以看下【自动驾驶中的大模型】全面概... 2.请问用多模态大语言模型去挖掘带有目标物体文本 prompt 的图片现在推荐的预训练大语言模型或者框架吗我目前能够到想到 base model 的是 sam 和 clip 结合。但不知道对小目标的精确度性能如何。回答1大模型我还不太熟悉我理解你是想做类似grounding的任务小目标可以搜下arxiv按照小目标的关键词搜索下 3.对于NOA功能怎么确定域控里跑的是啥地图HD/SD/HQ map? 回答1至少可视化界面上你看不出来。。。只能猜吧可以这样去一些hard case场景看看或者没有高精地图的地方看看不太可能采集到的看看效果咋样如果效果很差说明依赖高精回答2也不能单纯以来高精现在无图的效果基本上可以和有图对齐了。域控里面跑的啥地图要找下游规控问一下SD这种信息都是图商提供的算法怎么用下游怎么用都不是固定的模式回答3可视化界面可以看出来是不是HD对地面标志左转右转掉头的识别如果在跳动说明不是HD是靠感知的呲牙 4.大佬数据处理(大模型自动标注和三维重建那个方向更值得选回答1我觉得都可以算是上下游关系了重建后再去做一些自动标注。个人觉得如果能接触到大模型相关的知识做自动标注方向吧接触的训练模型方面更多一些三维重建需要很多SLAMNerf还有3DGS知识看你背景如何。 5.有协同检测数据集opv2v、v2xset的网盘链接吗从官网下载流量不够.... 回答1去opendatalab搜索下 6.有人会魔改pytorch源码吗pytorch源码目录繁多根本搞不清都是哪些做用啥的有人知道要魔改一个算子的话需要从哪里入手吗回答1魔改算子这个有点难比如采样插值等等你要看底层代码然后修改完之后怎么封装等等回答2官方文档有写如何自定义算子你去看看呢 7.提问想做单相机的bev感知以kitti数据集做参考请问在自制数据的时候是否可以只用一个16线激光雷达和一个彩色相机采集数据。如果不行还有哪些传感器是必备的呢回答1分不分量产车和真值车真值还需要稠密些的点云标注回答2目前还不用在车上现在是想先采些数据做3D目标检测和BEV检测是不是没有GPS/IMU也可以 8.请问我跑多目标跟踪代码CPU占用比较多但是也会用到一点GPU最好在网上租什么服务器我看网上单独租CPU的其中并没有GPU所以不能单独租CPU昨天试2080ti内存没有跑满但是跑的也是比较慢。回答1一般这种代码后处理比较多所以cpu占用多一些。服务器根据你的需要就可以了一般跟踪对gpu需求不高回答2有些库里面的算子可能有gpu加速主要还是cpu为主 9.各位佬上午好想问一下针对BEV空间中的栅格划分现在有使用动态变化方式的方案吗例如近/远处的格子分辨率不同或者近远处密集/稀疏程度有差别回答1这种不行吧动态划分一些2d feat到bev上的cuda算子不好做吧 10.你好我是一名基础架构的工程师学习自驾是想了解自驾算法会对视频图像进行抽帧每帧都是很小的图片请问下在工业落地的时候如何解决海量小文件读取的性能瓶颈本人想到有两条路第一条就是把大量的图片合成一个大图片类似pickle这样的解决方案第二条就是在训练框架里面每次输入源做优化把很多相近时间段内的图片灌进去避免出现读随机性本人对算法框架的输入源控制不太熟悉因此想请教下这两种方法落地可行性还有没有其他工业界落地比较好的方案多谢回答1在实车运行时自驾算法是按照时间序列输入图像和其他传感器数据的不会同时海量小图。如果是训练模型这个阶段也会分batch进行。 11.想请问一下目前视觉做一些3d目标检测之类的如何适配不同相机不同场景的呢例如单目3d检测训练涉及到使用相机内参如何适配到其他相机。bevformer之类的回答1两种方式要么做域迁移要么直接用虚拟相机。一般涉及到相机内参的事情换个相机就不咋好用了所以领域有一些域迁移的工作少量本相机的样本其它成像的数据一起做优化。还有就是直接把相机模型统一但这样会遇到一个问题那就是可能视场角不太一样 12.相同的运算改变运算顺序会影响程序的运行结果吗一段基本上都是乘法和加法的程序运算结果和理想中的有一些误差有可能是什么原因啊回答1第一要给点伪代码出来看看第二有可能是改变运算顺序的时候如i这些可能会有使用习惯不当导致获取结果不同。第三如果是一串很复杂的加法和乘法逻辑那就一步步全部拆开分步写等等。第四就是使用分段调试先对不同段之间的逻辑调换顺序一点点调试看结果哪里会有差异 13.3dod的细分类比如面包车小轿车之类一般是怎么做的哇回答1标注细分下 14.请教一下移动机器人基于局部路径规划决策传统的算法和基于深度强化学习的算法有没有比较好的算法可以推荐学习一下的。有开源的代码就更好了回答1机器人导航汇总链接涉及移动机器人、水下机器人、视觉-语言导航、ROS等综述 Autonomous Navigation and Collision Avoidance for Mobile Robots: Classification and Review 论文链接[2410.07297] Autonomous Navigation and Collision A...我们的“具身智能之心”星球比较多哈哈 15.请问联合轨迹预测有没有什么常用的数据集上次只做了Argoverse2被审稿人喷了回答1waymo interaction prediction benchmark也可以回答2这也能被喷argoverse waymo这几个常用的都要跑跑嘛 16.介绍一下个人情况本人研一北京双非学校目前方向是自动驾驶但是没有任何人带导师不是这个领域跟着导师的小老师做小老师是车辆工程专业的老师但是做的比较传统提供不了太大帮助但个人非常适合这种自由度高但资源少的局面也有信心去把这件事情做好。我的目的是读博因为我想做的是一些创造和探索性质的工作当然最重要的肯定是想把自己的想法实现自由度能高一些自己想做什么就大程度能做什么一开始想做规控学习了控制的一些经典算法比如PIDLQR在carsim上简单做了实验但是肤浅的觉得传统控制领域指的是应用在自动驾驶领域内的没有太多空间去做了无非是基于学习去优化一下原有的方法这里是说研究空间不是工程实际应用。而且端到端一直弄的我心痒痒的所以我开始去较为深入的了解端到端看了星球发布的端到端学习路线认真看了端到端行业报告和几场PPT讲座感觉我自己去弄端到端有点自不量力的感觉而且实验室只有一张quadro RTX8000的卡。其次比较关注的就是轨迹预测和3D目标检测方面。因为我一直是想能先通过一些相较于端到端较为容易上手的而且实验室资源能够支持的模块入手逐渐向端到端靠拢而目标检测作为端到端依赖的最初起点以及轨迹预测又作为模块端到端的起点所以重点关注了一下这两个模块而且觉得这两个模块的学习思维应该比较接近端到端的学习思维问题 1.那如果我要读博还想做端到端应该到底从哪入手呢是3D目标检测还是轨迹预测还是说从其他的模块开始 2.我以上的这个思路是不是正确的有没有认知上的偏差 3.从硕士三年或者说两年半这个长线来看基于我这个计划我要提前做什么部署呢需要注意哪些细小但举足轻重的东西呢我一直想自己推测一个结果出来可发现知之甚少所以请教各位老师感谢各位老师的悉心解答谢谢各位老师回答1有几个问题你需要想办法自动驾驶感知的算力问题端到端需要的算力也很大 1、端到端可以直接基于开源的算法入手但你是小白入门学习的过程差什么补什么像3D目标检测、轨迹预测你在学习的过程都会针对性的补充学习 2、我看你整体的描述觉得你整体上还在入门的阶段有这些困惑很正常大体两三个月就会越来越清晰要做什么 3、你现在所要做的就是紧跟前沿热点随时会变持续学习 17.请教一个问题在nuScenes上跑点云语义分割只用单帧进行训练数据增强只有旋转翻转这样的简单增强指标很低。我用SparseUnetPTV3Cylinder3D搞了都很低。同样的网络在waymo上指标没有那么差。是不是nuScenes数据集过于稀疏的原因呢还是有其他原因呢回答1第一你跑的算法有没有在nuScenes上进行实验第二其他在nuScenes上实验的算法配置是怎样这些你对比下 18.大佬们好雷达cfar前数据频谱数据和camera有哪些融合方案或者论文可以参考最好是稀疏的方法求甩在我脸上回答1centerfusion、RCBEV可以看看 19.想问下有没有介绍相机激光雷达等传感器原理的书籍或资料包括传感器内部的原理和故障分析等等感谢回答1硬件这块确实没见过相机的话有一些相机标定的书激光雷达这些是不是看产品手册会更好回答2B站上搜激光雷达拆解 20.目前在自动驾驶领域有没有真实数据和生成数据相结合的数据集回答1一般有用合成数据结合生成数据一起用提升性能的直接做一个真实合成意义不大合成数据可以根据真实的做回答2这里面有些数据集你可以看看【计算机视觉中的合成数据增强方法】 21.occ bev可以使用广角和鱼眼镜头一起组合使用么因为提特征的网络是一样的不同畸变的镜头一起组合使用有问题么各个厂家有使用鱼眼镜头做occ bev任务么回答1大部分是去了畸变再进网络地平线7号有篇部署ParkingE2E到J6的Demo就是这么做的。老哥也在做鱼眼Occ吗可以交流下 22.现在大模型的可部署性怎么样现在在车载芯片上可以用好大模型吗回答1可以部署的把模型裁一裁。本质还是transformer的部署。大模型可以用在座舱和端到端可以参考下理想小鹏长安的发布会 #博世将裁员5500人汽车行业寒冬来了博世在华面临的情况完全不同它反而需要加快速度跟上中国车企智能化和电动化转型节奏博世计划在全球裁员5550人其中包括德国工厂3800人。德国当地时间11月22日博世和德国工会组织IG Metall发布上述信息IG Metall反对博世这一计划。博世曾在11月初警告如果2024年财务目标无法实现将在全球范围进行裁员。博世称汽车市场销量疲软行业整体出现产能过剩。同时行业转向电动化、智能驾驶、集中式软件控制等方面的速度不及预期汽车企业正在推迟或放弃很多这些领域的项目。博世是全球最大的汽车零部件供应商难免受到影响。近期欧洲车企也在密集采取措施降本或裁员。11月20日福特汽车宣布将在欧洲裁员4000人数量相当于欧洲员工总数的14%。 11月21日大众汽车集团与工会进行了新一轮劳资谈判双方还没有就关键条款达成一致。工会威胁将在12月1日举行大规模罢工。 #DeSiRe-GS 专为自动驾驶而生彻底摒弃3D框动静态重建完美解耦UC Berkeley最新 UC Berkeley最新的工作提出了DeSiRe GS。全新自监督高斯飞溅表示可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街道高斯的两阶段优化流水线。在第一阶段由于3DGS只能重建动态环境中的静态区域因此首先提取2D运动目标mask。然后这些提取的2D运动先验以可微的方式映射到高斯空间在第二阶段利用动态高斯的有效公式。结合引入的几何正则化我们的方法能够解决自动驾驶中数据稀疏引起的过拟合问题重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯分布。此外我们引入了时间跨视图一致性以确保跨时间和视点的一致性从而实现高质量的表面重建。综合实验证明了DeSiRe GS的效率和有效性超越了先前的自监督技术实现了与依赖外部3D边界框标注的方法相当的准确性。开源链接https://github.com/chengweialan/DeSiRe-GS 总结来说本文的主要贡献如下本文基于3DGS无法成功建模动态区域的简单观察从外观差异中轻松提取运动信息。然后以可微的方式使用time-varying高斯将提取的局部帧中的2D运动先验提取到全局高斯空间中。引入了有效的3D正则化和时间交叉视图一致性以生成物理上合理的高斯球进一步增强高质量的分解和重建。相关工作回顾城市场景重建。新视图合成的最新进展如神经辐射场NeRF和3D高斯散斑3DGS显著推进了城市场景重建。许多研究已经将NeRF集成到自动驾驶的工作流程中。Urban Radiance Fields结合了激光雷达和RGB数据而Block NeRF和Mega NeRF则对大型场景进行了分区以进行并行训练。然而动态环境带来了挑战。NSG使用神经场景图来分解动态场景SUDS引入了一个用于4D场景表示的多分支哈希表。EmerNeRF和RoDUS等自我监督方法可以有效地应对动态场景挑战。EmerNeRF通过场景流估计捕获目标对应关系RoDUS利用基于核的鲁棒训练策略结合语义监督。在基于3DGS的城市重建中最近的工作引起了人们的关注。StreetGaussians使用球谐函数分别对静态和动态场景进行建模而DrivingGaussian引入了用于静态背景和动态目标重建的特定模块。OmniRe通过动态高斯场景图统一了静态和动态对象重建。静态动态分解。几种方法试图对动态和静态部件的变形进行建模。D-NeRF、Nerfiles、Deformable GS和4D-GS通过引入变形场扩展了vanilla NeRF或3DGS。他们计算规范到观测的转换并通过变形网络分离静态和动态组件。然而由于学习密集变形参数需要大量的计算资源将这些方法应用于大规模驾驶场景具有挑战性不准确的分解会导致次优性能。对于自动驾驶场景NSG将动态和静态部分建模为神经场景图中的节点但需要额外的3D注释。其他基于NeRF的方法利用多分支结构分别训练时变和时不变特征。基于3DGS的方法也侧重于静态-动态分离但仍面临局限性。PVG为每个高斯函数分配速度和寿命等属性区分静态和动态。然而这种分离仍然不完整缺乏彻底性。神经表面重建。传统的神经曲面重建方法更侧重于真实的几何结构。随着神经辐射场NeRF技术的兴起神经隐式表示显示出高保真表面重建的前景。StreetSurf建议在城市环境中解开近景和远景以更好地进行隐式表面重建。 3D GS重新引起了人们对显式几何重建的兴趣最近的工作侧重于几何正则化技术。SuGaR通过引入和附加正则化项将高斯椭球体与物体表面对齐而2DGS直接用2D圆盘替换3D椭球体并利用截断符号距离函数TSDF融合深度图实现无噪声的表面重建。PGSR引入了单视图和多视图正则化以实现多视图一致性。GSDF和NeuSG将3D高斯与神经隐式SDF相结合以增强表面细节。TrimGS通过修剪不准确的几何体来细化表面结构保持与3DGS和2DGS等早期方法的兼容性。虽然这些方法在小规模重建中表现出色但较新的作品旨在解决大规模的城市场景。RoGS提出了与路面物理特性相一致的2D高斯曲面表示。 DeSiRe-GS方法详解如图2所示训练过程分为两个阶段。我们首先通过计算渲染图像和GT图像之间的特征差来提取2D运动mask。在第二阶段我们使用PVG将2D运动信息提取到高斯空间中从而能够以可微的方式纠正每个高斯的不准确属性。 Dynamic Mask Extraction (stage I) 在第一阶段我们观察到3D高斯散斑3DGS在重建静态元素方面表现良好例如驾驶场景中停放的汽车和建筑物。然而它很难准确地重建动态区域因为原始的3DGS没有包含时间信息。如图2阶段1所示这种限制会导致渲染图像中出现重影状浮点等伪影。为了解决这个问题我们利用静态和动态区域之间的显著差异开发了一种有效的方法来提取编码运动信息的分割mask。最初采用预训练的基础模型从渲染图像和用于监督的GT图像中提取特征。设F表示从渲染图像I中提取的特征F表示从GT图像I中抽取的特征。为了区分动态和静态区域我们计算相应特征之间的每像素相异度D。相异度度量D对于类似特征接近0表示静态区域对于不同特征接近1对应于动态区域。当预训练模型被冻结时计算出的相异度得分不涉及任何可学习的参数。我们提出了一种多层感知器MLP解码器来预测动态度δ而不是对D应用简单的阈值来生成运动分割mask。该解码器利用提取的特征其中包含丰富的语义信息同时采用相异性得分来指导和优化解码器的学习过程。通过采用等式7中定义的损失函数解码器被优化以预测与动态区域对应的D较高的区域中的较低值从而最小化损失。然后我们可以获得二进制掩码编码运动信息ε是固定阈值在训练过程中图像渲染和mask预测的联合优化是相辅相成的。通过在监控过程中排除动态区域渲染图像和GT图像之间的差异变得更加明显从而有助于提取运动蒙版。 Static Dynamic Decomposition (stage II) 虽然第一阶段提供了有效的动态mask但这些mask仅限于图像空间而不是3D高斯空间并且依赖于GT图像。这种依赖性限制了它们在新型视图合成中的适用性在这种情况下监督图像可能不可用。为了将2D运动信息从第一阶段桥接到3D高斯空间我们采用了PVG一种动态场景的统一表示第3节。然而PVG对图像和稀疏深度图监督的依赖带来了挑战因为很难从间接监督信号中学习到准确的运动模式。因此如图2第2阶段所示渲染的速度图V通常包含噪声异常值。例如速度应为零的道路和建筑物等静态区域没有得到有效处理。这导致场景分解不令人满意PVG经常对预期速度为零的区域进行错误分类。为了缓解这个问题并生成更精确的高斯表示我们结合了从第一阶段获得的分割mask来正则化2D速度图V该速度图V是从3D空间中的高斯图渲染的。最小化Lv会惩罚速度应为零的区域有效地消除了原始PVG产生的噪声异常值。该过程将运动信息从2D局部帧传播到全局高斯空间。对于每个高斯分布通过应用一个简单的阈值可以区分动态和静态高斯分布。与PVG和S3Gaussian相比这种方法实现了更优的自监督分解而不需要额外的3D标注如之前方法中使用的边界框。 Surface Reconstruction Geometric Regularization Flattening 3D高斯受2D高斯散斑2DGS的启发我们的目标是将3D椭球体压平成2D圆盘使优化的高斯更好地符合物体表面并实现高质量的表面重建。3DGS的尺度ss1s2s3定义了椭球体沿三个正交轴的大小。最小化沿最短轴的比例有效地将3D椭球体转换为2D磁盘。缩放正则化损失为法线推导曲面法线对于曲面重建至关重要。以前的方法通过向每个高斯函数附加一个法向量来合并法线然后使用该法向量来渲染法线图N。使用地面真值法线图来监督高斯法线的优化。然而这些方法往往无法实现精确的表面重建因为它们忽略了尺度和法线之间的内在关系。我们不附加单独的法向量而是直接从尺度向量s中推导出法向量n。法向量方向自然与对应于最小尺度分量的轴对齐因为高斯在展平正则化后形状像圆盘。通过这种法线公式梯度可以反向传播到尺度向量而不是附加的法线向量从而促进高斯参数的更好优化。正常损失是 Giant高斯正则化我们观察到3DGS和PVG都可以在不进行额外正则化的情况下产生超大高斯椭球特别是在无界驱动场景中如图3a所示。我们的主要目标是拟合适当缩放的高斯分布以支持精确的图像渲染和表面重建。虽然具有低不透明度的超大高斯椭球体对渲染图像的影响可能很小但它们会严重损害表面重建。这是一个在仅关注2D图像渲染的现有方法中经常被忽视的局限性。为了解决这个问题我们为每个高斯函数引入了一个惩罚项 Temporal Spatial Consistency 在驾驶场景中视图的稀疏性通常会导致高斯优化过程中对训练视图的过拟合。单视图图像丢失特别容易受到远距离无纹理区域的挑战。因此依赖图像和稀疏深度图的光度监督是不可靠的。为了解决这个问题我们建议通过利用时间交叉视图信息来增强几何一致性。在假设静态区域的深度在不同视图之间随时间保持一致的情况下我们引入了一个跨视图时空一致性模块。对于参考系中深度值为dr的静态像素urvr我们将其投影到最近的相邻视图——重叠最大的视图。使用相机内部函数K和外部函数Tr、Tn相邻视图中的相应像素位置计算如下然后我们查询相邻视图中unvn处的深度值dn。将其投影回3D空间得到的位置应与通过将urvrdr反向投影到参考系而获得的位置对齐为了加强交叉视图深度一致性我们应用几何损失来优化高斯分布定义为这种损失促使高斯人随着时间的推移在视图中产生几何一致的深度。优化第一阶段在第一阶段我们的目标是利用运动掩模和渲染图像的联合优化来有效地学习运动掩模。因此我们只使用遮蔽图像损失LI 第二阶段我们使用阿尔法混合来渲染深度图、法线图和速度图如下所示实验结果结论本文提出了一种用于驾驶场景中静态动态分解和高质量表面重建的自监督方法DeSiRe GS。通过引入运动掩模模块并利用时间几何一致性DeSiRe GS解决了动态对象建模和数据稀疏性等关键挑战。 #理想汽车大模型算法工程师面试被问的瑟瑟发抖最近面试了理想汽车大模型岗位被面试官强度拉满了...不仅问到了很多大模型的基础还有RAG、强化学习、部署的各种问题尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的这块的经验积累还是比较丰富。本文章主要记录了本小菜研找实习的坎坷历程欢迎大佬们给建议 1. 自我介绍自我介绍环节主要是让大家进入快速面试状态聊聊个人基本信息、教育背景、工作经历和技能特长等等。 2. 项目面因为我简历上面写一个RAG项目所以面试官主要围绕RAG进行提问聊一下RAG项目总体思路在做RAG项目过程中遇到哪些问题怎么解决的RAG项目里面有哪一些亮点目前开源的RAG项目非常多你的项目和他们有什么区别... 通用大模型也问到了很多基础的内容阿里的Qwen-VL任意模态算法X-InstructBLIP统一视觉任务大模型的Florence2... 3. 技术问题回答 3.1 简单介绍一下大模型存在哪些问题有什么好的解决方法大模型幻觉问题外挂知识库大模型微调强化学习... 3.2 大模型加速框架了解多少知不知道原理如何进行加速优化 vLLM vLLm 运行大模型非常快主要使用以下方法实现的先进的服务吞吐量通过PageAttention 对attention key value 内存进行有效的管理对于输入请求的连续批处理高度优化的CUDA kernels OpenLLM OpenLLM 运行大模型非常快主要使用以下方法实现的促进实际生产过程中的大模型的部署微调服务和监测. TensorRT-llm DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的组装优化大语言模型推理解决方案的工具提供Python API 来定义大模型并为 NVIDIA GPU 编译高效的 TensorRT 引擎. 3.3 如何看待自动驾驶大模型以及如何落地自动驾驶大模型这块聊了很多自动驾驶大模型的工作像经典的DriveGPT4、OpenDriveLab的DriveLM当然也离不开理想自己的工作DriveVLM估计也是他们快慢双系统借鉴的核心算法。实战这块我自己跑过DriveLM面试官还是比较感兴趣的这块深入聊聊蛮多算法细节。目前来看国内端到端的技术路线已经明确就是端到端大模型据我了解除了理想像长安/小鹏都宣称大模型上车了。智能座舱和具身智能这块也是当下非常火爆的方向。未来大模型除了指导快系统外像数据挖掘、标注等等应该都值得进一步探索。 #极氪副总裁加入新公司据悉极氪副总裁、电子电气架构负责人谢保军离职之后加入了奇瑞旗下的大卓科技。大卓智能在组织变化上并不止谢保军的加入。今年大卓智能的管理团队的架构发生了调整变化。原本是谷俊丽为CEO曹光植为CTO一个负责整体统筹管理一个负责技术开发。而今年原奇瑞内部自动驾驶技术中心负责人张晓洪被派到大卓智能担任COO负责智驾产品技术、项目开发工作。张晓洪是华为背景出身曾担任华为汽车BU智能驾驶产品项目群总监于2021年加入蔚来后又从蔚来跳槽到奇瑞。大卓智能人事变化的背后是奇瑞在智驾上着急追赶。在今年奇瑞董事长尹同跃在多个场合对大卓智能董事长高新华表示要把智驾水平追上去做到头部阵营。其实着急的不止是奇瑞今年各家传统主机厂都在密集的调整动作。有的在切换智驾供应商体系把量产干的拉跨的踢掉换上技术实力强的最典型的是集体”投华“拥抱华为有的在对自研团队调整烧钱但不干出东西的自研负责人被调整。 11月份的广州车展上在奇瑞的展台上尹总接待了探访的何小鹏。当着何小鹏的面尹总叮嘱高新华在智能化上要追赶上何小鹏的背影。尹总和何小鹏聊了聊智驾。尹总称赞小鹏的智能化做的太棒了又调侃的说何小鹏“你们是年轻精英把我们这些老汉逼得也要开始搞人工智能了”。何小鹏也给尹总分享了一个“小经验”智驾直播一定要BOSS亲自上这样才能使技术团队有足够的压力全力以赴才会把智驾体验做好。对于传统主机厂做智驾这个事来说何小鹏的话点出了关键。老大就得像普通用户一样去体验测试才能摸清真实技术水平。而不是只听汇报汇报这个事本来就容易层层注水就容易陷入“信息茧房”处境之中。无论是采用供应商还是自研方案做的到底怎么样拉出来溜溜就知道了。就像尹总说的找个最难开的城市、最拥堵的时间段来一次“小考”。 #MagicDriveDiT 暴力提升生成质量40% 扩散模型的快速发展极大地改善了视频合成特别是在可控视频生成方面这对自动驾驶等应用至关重要。然而现有的方法受到可扩展性和控制条件集成方式的限制无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍了一种基于DiT架构的新方法MagicDriveDiT并解决了这些挑战。我们的方法通过流匹配增强了可扩展性并采用渐进式训练策略来管理复杂的场景。通过结合时空条件编码MagicDriveDiT实现了对时空延迟的精确控制。综合实验表明它在生成具有更高分辨率和更多帧的逼真街道场景视频方面具有优越的性能。Magic-DriveDiT显著提高了视频生成质量和时空控制扩大了其在自动驾驶各种任务中的潜在应用。项目主页https://gaoruiyuan.com/magicdrivedit/ 总结来说本文的主要贡献如下本文设计了一个高效的框架MagicDriveDiT利用渐进式引导来实现高质量的高分辨率长视频生成。为目标位置、道路语义和相机轨迹开发了新的时空控制同时保持了多帧、多视图的一致性。MagicDriveDiT通过混合分辨率和持续时间训练从图像到视频生成都得到了很好的推广具有外推能力大大超过了之前工作中的分辨率和帧数。相关工作回顾自动驾驶中的视频生成。视频生成对于自动驾驶至关重要可应用于训练感知模型、测试和场景重建。它需要广阔的视野和动态目标运动处理需要生成模型可控性和具有更多帧和多相机视角的高分辨率视频制作。扩散模型改进了可控多视图视频生成但现有模型缺乏足够的分辨率和帧数无法用于数据引擎应用和策略测试。如表1所示我们的工作MagicDriveDiT在自动驾驶视频生成方面实现了前所未有的分辨率和帧数。扩散模型和DiT架构。扩散模型通过学习从高斯噪声到样本的去噪步骤来生成数据广泛应用于图像和视频生成。从建模的角度来看流匹配简化了扩散模型的建模提高了训练和推理的效率。从实现的角度来看由于更好的可扩展性扩散模型的架构从UNet转变为DiT特别是对于高分辨率任务。我们的MagicDriveDiT还利用流匹配和DiT来扩展到高分辨率和长视频生成。有条件生成。条件生成对于使用生成模型的各种应用程序至关重要。LDM和ControlNet的网格形控制信号加性编码的交叉关注层是可控扩散生成的领先方法。在街景生成中MagicDrive和MagicDrive3D集成了3D边界框、BEV地图、自车轨迹和相机姿态用于多视图街景合成。然而这些方法仅限于空间编码并不直接适用于时空VAE延迟如图2所示。MagicDriveDiT为时空压缩的VAE延迟提供了一种新的控制范式使高分辨率长视频的生成可控。 MagicDriveDiT方法详解对于图3所示的模型架构MagicDriveDiT引入了一种基于DiT的新型扩散模型用于可控街景生成该模型利用STDiT-3块。这些块具有单独的空间和时间模块以增强信息处理。架构设计包含两个重大修改。首先为了促进多视图生成多视图DiTMVDiT块集成了一个跨视图注意力层如图3左侧所示。其次考虑到需要处理多个控制元素MagicDriveDiT对文本、框、相机视图和轨迹采用交叉注意力同时对地图采用额外的分支来输入控制信号。然而如图2所示控制信号的空间编码与时空潜伏期不兼容。因此每个控制信号的编码器都被重新制定如图3右侧的时空框编码器所示。此外MagicDriveDiT采用渐进式引导训练策略从图像过渡到低分辨率和短视频最终过渡到高分辨率和长视频以增强扩散模型的收敛性。最后的训练阶段包含可变长度和分辨率的视频使模型能够生成不同分辨率的图像和视频并推断出训练设置之外的更长帧数。 Design for High-Resolution Long Video DiT和3D VAE。用于高分辨率和长视频生成的训练扩散模型是计算密集型的需要大量的GPU内存。DiT和3D VAE在这些方面对扩散模型的缩放至关重要。正如Peebles和Xie所指出的那样模型Gflops和FID之间存在很强的负相关关系这使得DiT在计算效率方面优于UNet等架构。对于GPU内存3D VAE提供时间降采样。典型的2D VAE在高度和宽度上都将图像压缩8倍达到64倍的压缩比。相比之下3D VAE将时间信息压缩了4倍得到了256倍的压缩比显著减少了压缩后的潜在序列长度和内存消耗这对转换器特别有利。此外架构统一的趋势允许DiT利用先进的并行化方法例如序列并行来克服单个GPU内存的限制从而促进更高的分辨率和更长的视频生成。采用3D VAE的一个主要挑战是几何控制。如图2所示几何控制在空间上管理每帧内容。使用2D VAET帧被编码为T延迟。使用T几何描述符视频几何控制降级为对图像的空间控制因为控制信号和延迟在时间上是对齐的。然而3D VAE会产生T/f延迟其中f是时间压缩比使控制信号与延迟不匹配并使之前的控制技术无效。 Spatial-Temporal Conditioning Techniques。对于MagicDriveDiT中的几何控制我们引入了时空编码来将控制信号与时空延迟对齐。这涉及重新对齐场景描述符中的贴图、框和轨迹。以网格数据表示的地图易于管理。通过扩展ControlNet的设计我们利用3D VAE中具有新可训练参数的时间下采样模块来对齐控制块和基块之间的特征如图4a所示。对于3D框填充应用于不可见的框以保持视图和帧之间框序列长度的一致性如图3右侧所示。我们使用带有时间变换器和RoPE的下采样模块来捕获时间相关性创建与视频延迟对齐的时空嵌入如图4b所示。通过用相机姿势的MLP替换盒子的MLP盒子的时空编码器也可以适应自车轨迹。所有下采样比都与采用的3D VAE对齐即分别以8n或8n1作为输入2n或2n1作为输出。 Progressive Bootstrap Training 为了在训练过程中加快模型收敛我们根据单次训练迭代的持续时间来调度训练数据。具体来说我们采用三阶段训练方法最初使用低分辨率图像进行引导训练过渡到低分辨率短视频最终采用高分辨率长视频训练。这种训练策略基于两个观察结果。首先在可控生成中我们注意到在学习可控性之前该模型最初会针对更高的内容质量进行优化Gao等人也观察到了这种模式。从头开始训练模型需要多次迭代才能收敛。我们的渐进过渡方法使模型能够更快地获得可控性。其次在阶段转换期间我们发现与长视频可控性相比该模型更快地适应高分辨率。因此我们从第一阶段开始训练可控性并专注于用短视频而不是图像优化更多的迭代。 Variable Length and Resolution Adaptation 如前文所述我们采用三阶段训练流程。在最后两个阶段我们将不同分辨率和长度的视频用于训练。具体来说在第二阶段我们使用长度不超过65帧、最大分辨率为424×800的视频混合进行训练。在第三阶段我们混合了高达241帧数据集的最大帧数和高达848×1600数据集最大分辨率的视频。与单一分辨率和长度的训练相比这种混合方法使模型能够快速理解分辨率和帧数维度的信息。因此我们的最终模型支持生成各种分辨率224×400、424×800、848×1600和帧数1-241帧。它还支持跨两个维度的外推允许在训练配置之外进行采样例如129帧时的848×1600或241帧时的424×800。实验结果和分析生成质量。MagicDriveDiT在视频和图像生成任务方面都表现出色。在视频任务中与MagicDrive相比它显著降低了FVD表2这是由于DiT架构增强了帧间一致性和时空条件编码用于精确控制目标运动和定位。如图6所示MagicDriveDiT生成的高分辨率视频不仅可以提高质量还可以包含更复杂的细节与真实相机拍摄的镜头非常相似。这一增强是通过我们对可变长度和分辨率的高级训练实现的可以实现更真实和详细的输出。 MagicDriveDiT也受益于混合训练方法能够生成图像。如表3所示MagicDriveDiT在多视图街景任务中与基线性能相匹配在车辆分割mIoU和目标检测mAP中超越了基线。这展示了我们时空条件编码的强大泛化能力。可控性。表2和表3中的定量结果表明MagicDriveDiT生成的图像和视频有效地反映了控制条件。此外图8提供了可视化结果表明多个控制条件可以独立影响生成的内容。例如天气可以通过文本输入从晴天到雨天来改变同时保持道路结构以及其他车辆和自车的轨迹。通过改变条件的组合MagicDriveDiT能够制作各种高质量的街景视频。消融实验街道景观的VAE比较。在训练扩散模型之前我们评估了开源3D VAE即CogVAE和Open Sora在街景上的性能并与2D SD VAE进行了比较。如图7所示CogVAE在重建能力方面始终优于同行。此外如附录E所示CogVAE在较长的视频序列上表现出最小的性能下降使其特别适合长视频生成任务。此外我们发现所有VAE都表现出随着分辨率的提高而提高的重建能力。这种见解有助于通过专注于更高分辨率的输出来提高我们的模型生成高质量图像和视频的能力。时空Conditioning。我们通过过拟合实验中的验证损失图9和可视化比较图10证明了时空编码器的有效性。我们比较了两种基线全局时间维度缩减Reduce和时间维度插值Interp.进行对齐。在16个样本的过拟合训练中4×下采样技术我们的4×下加速了收敛并实现了最低的最终验证损失如图9所示。此外图10显示与全局缩减基线不同4×down可以减少伪影并保持精确的运动轨迹。这些结果证实了时空编码器利用时空延迟增强数据编码和提高视频生成性能的能力。渐进式Bootstrap训练。与直接的第3阶段训练相比三阶段渐进训练方法显著提高了模型训练效率。表4显示例如在4天内阶段1执行的迭代次数比阶段3多约60倍阶段2实现的迭代次数多约7倍。渐进式训练对于受控生成模型至关重要可控生成模型需要大量迭代才能有效收敛。渐进式策略能够快速获得高质量的视频生成能力在早期阶段利用更快的迭代来增强收敛性和加快学习速度。可变长度和分辨率训练。MagicDriveDiT采用了一种混合不同长度和分辨率视频的训练策略。我们的消融研究证明了这一策略的有效性。如表5所示当仅使用低分辨率视频17×224×400时VAE的局限性是显而易见的与其他设置相比FVD较差mAP和mIoU评分较低。合并较长的视频可以提高模型的可控性mAP和mIoU都更高而合并高分辨率视频可以提高整体质量所有三个指标都得到了显著改善。尽管混合不同的帧长度会略微降低FVD但这对于使模型能够生成各种长度的视频并推断出看不见的长度至关重要见第6节。因此我们结合了分辨率和帧长有效地平衡了视频质量、可控性和模型功能之间的权衡。结论和讨论在这篇论文中我们介绍了MagicDriveDiT这是一个具有精确控制的高分辨率和长视频合成的创新框架专门为自动驾驶等应用量身定制。通过利用DiT架构和流匹配MagicDriveDiT有效地解决了视频生成中可扩展性和几何控制的挑战。我们的方法引入了新颖的时空条件编码和具有可变长度和分辨率自适应的渐进自举策略增强了模型的泛化能力。大量实验表明MagicDriveDiT可以生成保持空间和时间连贯性的逼真视频在分辨率和帧数方面大大超过了以前的方法。这项工作推进了视频合成并为自动驾驶中的模拟和其他应用开辟了新的可能性。 #DATAP-SfM 动态感知跟踪一切标题DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild 作者Weicai Ye, Xinyu Chen, Ruohao Zhan, Di Huang, Xiaoshui Huang, Haoyi Zhu, Hujun Bao, Wanli Ouyang, Tong He, Guofeng Zhang 机构Zhejiang University、Shanghai AI Laboratory 导读引言从单目视频中估计运动相机的姿态在计算机视觉和机器人学领域发挥着基础性作用在自动驾驶、增强现实等多个领域均有应用。在日常随意拍摄的视频中相机通常处于移动状态而复杂的前景运动包括人物、车辆和其他移动物体占据了视频帧的大部分。这给在此类场景中实现稳健的相机姿态估计带来了重大挑战。传统的间接SLAM或SfM方法通过提取和匹配高质量特征点并利用非线性优化技术来估计相机姿态和重建三维点云从而最小化几何重投影误差。相比之下直接SLAM或SfM方法通过优化光度误差假设视频外观一致来进行相机跟踪。虽然这些方法已显示出良好效果但在包含大量动态物体的场景中它们往往难以实现稳健定位。这一局限性在动态物体常见的真实场景中尤为明显。为解决这一问题一些视觉里程计或SLAM方法使用语义或几何先验来减轻由特定类型潜在动态物体如人或车辆引起的干扰。然而在实际自然场景中一些看似静止的物体也可能呈现运动状态例如水杯被拿起或移动或柳枝在风中摇曳。这使得上述依赖语义约束的方法失效。另一方面一些端到端的视觉里程计或SLAM方法通过训练数据隐式建模场景物体的复杂运动并通过关注静态区域来估计相机姿态。然而这些方法在推广到野外视频时面临挑战。最近ParticleSfM提出了一种方法该方法涉及构建点轨迹应用轨迹运动分割以解决动态轨迹干扰并执行全局捆集调整以改进姿态估计。该方法在泛化性能和姿态估计准确性方面显示出前景但也存在明显局限性1基于成对光流匹配的点轨迹构建无疑会带来长期累积误差。2使用单目姿态估计进行运动分割存在尺度模糊问题。基于最近表现突出的二维点跟踪方法如TAPIR、CoTracker和Omniotion我们提出了一种新颖的方法称为动态感知跟踪任意点Dynamic-Aware Tracking Any PointDATAP通过利用一致的视频深度估计和长期点跟踪来解决上述问题。具体而言DATAP是一种以滑动窗口方式运行的Transformer网络。它估计视频中采样点的点跟踪和可见性。Transformer网络融合了自注意力机制和交叉注意力机制将滑动窗口内的每条轨迹视为一个整体。这有助于利用轨迹特征之间的相关性并促进轨迹内和轨迹间的信息交换。在滑动窗口内每个查询点的轨迹最初设置为0。网络将通过Transformer的迭代逐步细化这些初始估计。随后的重叠窗口将基于前一个窗口的细化预测来初始化轨迹和可见性并更新新帧的轨迹和可见性。为估计轨迹的动态运动标签我们在跟踪特征中融入了多层感知层。这一附加层预测动态运动的概率类似于预测可见性的方式。这样做旨在解决仅使用二维点跟踪进行动态预测时可能出现的模糊性。受ParticleSfM启发我们利用深度信息并设计了一个Transformer模块以消除二维点运动分割中的模糊性。考虑到单目视频单视图深度估计所带来的尺度模糊问题我们建议使用一致的视频深度估计进行深度初始化。结合DATAP我们构建了一个简洁、优雅且稳健的野外运动恢复结构Structure from MotionSfM流程。在MPI Sintel数据集和TUM RGBD动态序列上的实验表明我们的动态感知点跟踪方法结合SfM可有效提升动态场景中相机定位的准确性。我们还在如DAVIS等野外随意拍摄的视频上验证了该方法证明了其在复杂挑战性场景中的定位鲁棒性。 3. 效果展示给定随意的视频我们的方法可以获得平滑的摄像机轨迹和动态场景的完整点云。从上到下:视频样本、来自COLMAP、ParticleSfM和我们的结果。 MPI Sintel数据集上摄像机姿态估计的定性结果。我们的方法优于现有的SOTA方法。 4. 主要贡献我们的贡献总结如下 • 我们提出了一种新颖的动态感知跟踪任意点DATAP网络能够以滑动窗口的方式同时估计点跟踪、可见性和动态性并利用一致的视频深度先验进一步提升性能。 • 结合DATAP和全局捆集调整我们提出了一种简洁、优雅且稳健的流程可从随意拍摄的单目视频中生成平滑的相机轨迹和密集的点云。推荐课程单目深度估计方法算法梳理与代码实现。 5.方法我们的目标是通过随意拍摄的单目视频实现平滑的相机轨迹和一致的视频深度。为此我们提出了一种动态感知跟踪任意点方法即DATAP以估计视频中点的轨迹及其可见性和动态特性。结合DATAP我们正式提出了一个简洁、优雅且稳健的野外运动恢复结构流程。图2概述了我们的方法流程。 6. 实验结果 MPI Sintel数据集是一个合成自然视频序列包含23个复杂且具有挑战性的场景如高度动态场景、运动模糊场景、非刚性运动场景等。遵循ParticleSfM的方法我们移除了对评估单目相机位姿无效的序列如静态相机运动序列留下14个序列用于比较。我们将本文方法与经典的特征点SfM方法COLMAP及其变体以及最新的深度学习方法进行了比较。表2中的定量位姿估计结果表明COLMAP及其变体只能在某些序列上进行位姿估计。而基于学习的最先进方法如DROID-SLAM在动态场景中表现不佳难以获得准确的相机轨迹。虽然最近的ParticleSfM在大多数场景中表现良好但本文基于动态感知点跟踪的SfM方法远优于它们在所有数据集上的绝对轨迹误差ATE提高了19.37%在COLMAP子集上的ATE提高了28.57%。 TUM RGBD数据集是评估不同挑战下SLAM或SfM算法性能的基准。为了评估本文方法在动态室内场景中的性能我们选择了9个包含动态对象如移动的人的序列。由于ParticleSfM在动态场景中通常表现更好我们选择ParticleSfM作为主要比较对象。通过运行ParticleSfM的开源代码实验表明ParticleSfM在TUM的9个数据集中会出现系统失败而本文方法能够解算出相机位姿这显示了本文方法的鲁棒性。在ParticleSfM的子集中本文方法在ATE上提高了26.62%。 DAVIS数据集是评估视频对象分割和跟踪无真实相机位姿的基准。它包含许多挑战如多对象遮挡、复杂运动、运动模糊等。为了进一步证明本文方法的泛化能力我们从DAVIS数据集中选择了15个序列并定性可视化了本文方法的效果。实验表明COLMAP只能运行DAVIS的15个序列中的10个而ParticleSfM只能运行8个序列。它们难以获得满意的位姿估计。我们还在图5中展示了更多的定性结果。 7. 总结局限性本文提出了一种具有动态感知点跟踪的结构从运动SfM方法用于准确的位姿估计。本文方法能够为野外随意拍摄的视频中的动态场景获得平滑的相机轨迹和完整的点云并且在动态场景中优于现有的SfM和SLAM方法。局限性。尽管本文方法能够在动态场景中进行鲁棒的位姿估计和一致的视频深度估计但它不能像实时SLAM系统那样运行即使我们采用了基于滑动窗口的点跟踪机制。开发一种高效的动态感知点跟踪方法是一个有前景的方向。探索大规模且多样的互联网视频来训练点跟踪方法将进一步提高其鲁棒性。我们将其留作未来工作。 #锐评Were RNNs all we needed 在ICLR openreview主持正义 TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分并且作者在rebuttal阶段全程嘴硬遂直接在Openreview贴脸开大正义制裁https://openreview.net/forum?idGrmFFxGnORnoteId2QR0ZJjvCm 如果ICLR变成了一个bad会议那么你就去建设它 ——sonta Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议机器之心图灵奖得主Yoshua Bengio新作Were RNNs All We Needed? 量子位Bengio精简了传统RNN性能可与Transformer媲美新智元RNN回归Bengio新作大道至简与Transformer一较高下这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉然后RNN就变成了一个Linear RNN可以用associative scan的思路来并行训练然而这个idea早就在linear RNN领域里玩烂了。其中ICLR 18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU. 我在之前也早有blog来理清这一系列的工作的发展 sontaRNN最简单有效的形式是什么 https://zhuanlan.zhihu.com/p/616357772 并且我NeurIPS 23 Spotlight的一个工作HGRN正是基于这个思路来进行的 Hierarchically Gated Recurrent Neural Network for Sequence Modeling arxiv.org/abs/2311.04823 其中有一个审稿人锐评道 https://openreview.net/forum?idGrmFFxGnORnoteIdZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人作者的狡辩是 Martin Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. 这是十足的偷换概念我们可以在上面的recurrent形式可以看到GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听狡辩道 Martin Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. In contrast, our work takes a different approach by simplifying traditional RNN architectures rather than augmenting them 这种被审稿人按着捶还不认错反过来混淆视听的做法真是一点b脸都不要了。此外这篇文章的完成度低的令人发指几乎没有稍微大一点的实验。对此某图灵奖得主挂名的团队给的解释是我们穷的只能用P100辣。然而据我mila朋友的反应mila内部有不少计算集群资源并且这个一作的权限还不低。而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment: 提到了我们HGRN和之后一系列的work并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我并且解释道这篇的motivation是为了simplify existing architecture 变得新手友好老少皆宜。我哭笑不得首先勒令他们解释跟GILR的区别你说的好但是GILRminGRU 并且痛批他们开倒车把整个领域这一年的发展直接清零梦回一年半前大家辛辛苦苦发展了一年的领域你直接倒回去了同时作者团队还在解释不是他们博人眼球特意宣传是大家自发进行的内心OS对对对你们有这么大一个图灵奖得主挂名标题起的这么大可不得是一堆自干五来做宣传吗我的使命到此结束等待AC和其他审稿人的正义制裁结言肉眼可见ICLR ‘25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水引入了一堆本来没有资格审稿的人加入审稿大军那么每个审稿人的workload不就小了吗这一大放水的结果可想而知这么离谱的一篇工作还有两个reviewer给出了8分和6分的高分并且8分reviewer直呼novel气的我反手一个public comment: 审稿workload变低了但审稿质量离谱了大家又得花更多的时间去处理不称职审稿人的意见导致本届会议的discussion氛围感人主办方直接延期rebuttal一周让大家感受三周rebuttal的快乐真是不戳呢同时我发现审稿人对linear RNN的进展的了解真是少的令人发指我一个一年前的starting point工作被人重新包装了一遍还能受到一些好评。感觉提高自己工作的曝光度是一件非常重要的事情教育community也是不多说了赶紧去写blog来系统的介绍自己这两年的工作了 #xx #xx

查看全文

http://www.w-s-a.com/news/981254/