外贸网站seo有哪些公司,网站有几种语言开发的,tiktok跨境电商好做吗,wordpress在哪里输入统计代码模型框架定义、模型快速迭代能力是考查智驾团队出活能力的两个核心指标。在展开讨论Vision-Language-Action Models(VLA)之前#xff0c;咱们先来讨论端到端自动驾驶大模型设计。
目录
1. 端到端自动驾驶大模型设计
1.1 模型输入设计
1.2 模型输出设计
1.3 实现难点分析 …模型框架定义、模型快速迭代能力是考查智驾团队出活能力的两个核心指标。在展开讨论Vision-Language-Action Models(VLA)之前咱们先来讨论端到端自动驾驶大模型设计。
目录
1. 端到端自动驾驶大模型设计
1.1 模型输入设计
1.2 模型输出设计
1.3 实现难点分析
2 VLA相关工作
2.1 视觉语言模型VLM
2.2 通用机器人策略
2.3 视觉-语言-动作模型VLA
2.4 谷歌RT-2
2.5 斯坦福OpenVLA
3 OpenVLA 模型
3.1 VLM模型
3.2 VLA训练过程
3.3 训练数据集
3.4 图形分辨率
3.5 视觉编码器微调
3.6 训练轮数、学习率
3.7 训练硬件设施
3.8 Parameter微调
4.写在最后 1. 端到端自动驾驶大模型设计
1.1 模型输入设计
先看看之前在100多人的一个自动驾驶群里的讨论发言 1.2 模型输出设计
接着上面话题端到端自动驾驶模型输出的设计应该包括三方面
第一种感知信息包括Occupancy占用、道路结构网络等实时构建4D全场景地图这一步的实现还顺带实现可以不用高精地图第二种是驾驶场景描述信息包括各种动态场景描述和交通参与者行为描述。当前大家为了快速实现自动驾驶人为编辑了很多场景及分类按照各种ODD场景匹配各种驾驶元动作这使得智能上限很低。增加了场景理解的一些描述信息能有效的监督大模型能够真正理解场景和交通参与者意图大大提升自动驾驶智能的上限。第三个信息则是在感知万物、知晓常识的基础上实现未来轨迹推理直接输出驾驶Action。当前普遍做法是感知的输出作为下一环轨迹规划的输入这严格说来不是真正意义上的端到端。
1.3 实现难点分析 如果认定强化学习可以实现超人类司机的能力则坚定采用强化学习这一套逻辑。
那强化学习特别有针对性的数据集从哪里来
咱们马上会想到现场采集、生成式AIGC等。AIGC生成感知数据不算难这环节难点在于运动数据精度最难的点在模仿老司机行为。也许这环节解决了个人认为机器人开车超过人类应该没问题。
鉴于前面推理这样看来自动驾驶模型应该是一个Vision-Language-ActionVLA大模型即模型容量足够大在开放数据集下感知万物同时有常识能推理最后给出优雅的Action。
当前大模型的底层核心框架仍然是transformer的天下这种耗资源的算法急需被替换这能加速自动驾驶大模型的商业化落地进程。总之堆人动不动需要几千人、堆资源需要几万颗GPU的方式不符合商业逻辑。
本专题由 深圳季连科技有限公司 AIgraphX 自动驾驶大模型团队编辑。下面内容来自网络侵权即删。文中如有错误的地方也请在留言区告知。
2 VLA相关工作
2.1 视觉语言模型VLM
视觉语言模型Vision Language ModelsVLMs在互联网规模的数据上进行训练从输入图像和语言提示生成自然语言已被用于从视觉问答到物体定位的无数应用。最近VLM的关键进展之一是模型架构它将预训练视觉编码器与预训练语言模型的特征连接起来直接建立在计算机视觉和自然语言建模的基础上以创建强大的多模态模型。新开源的VLMs已经融合了一种更简单的“patch-as-token”方法将来自预训练视觉转换器的patch特征被视为token然后投影到语言模型的输入空间中。这种简单性使得大规模语言模型VLM的训练变得很容易。
2.2 通用机器人策略
机器人技术最近的一个趋势是在大型不同机器人数据集上训练多任务“通才”机器人策略涵盖许多不同的机器人实例。值得注意的是Octo算法训练了一个通才策略该策略可以控制多个机器人开箱即用并允许对新机器人设置进行灵活的微调。
2.3 视觉-语言-动作模型VLA
许多工作已经探索了VLM在机器人中的应用例如用于视觉状态表示、目标检测、高级规划以及提供反馈信号其他将VLM直接集成到端到端视觉运动操控策略中。最近的一些工作已经探索了使用大型预训练VLM模型来预测机器人的动作。这种模型通常被称为视觉语言动作模型Vision-Language-Action ModelsVLAs因为它们将机器人控制动作直接融合到VLM主干中。
这有三个关键好处
它在大型互联网规模的视觉语言数据集上执行视觉和语言对齐使用通用架构而不是对机器人控制定制允许我们利用现代VLM可扩展基础设施并以最小代码修改量扩展到训练十亿参数策略它为机器人从VLM的快速改进提供了直接途径。
2.4 谷歌RT-2
Robotic Transformer 2(RT-2)是由谷歌 DeepMind 推出的视觉-语言-动作VLA技术它为人类提供了通过纯语言命令来优化机器人控制的能力。RT-2可以从网络和机器人的数据中学习并将这些知识转化为机器人控制通用指令帮助机器人在未曾见过的现实环境中完成各种复杂任务同时提高机器人适应性和推理能力。 2.5 斯坦福OpenVLA
24年6月Stanford联合UC Berkeley、TRI、Deepmind 和 MIT发布了论文“OpenVLA: An Open-Source Vision-Language-Action Model”。 OpenVLA一个7B参数的开源视觉语言动作模型VLA在Open X-Embodiment 970 k机器人数据集上进行了训练。OpenVLA为通用机器人动作策略设定了一个新的状态。它支持开箱即用控制多个机器人并可以通过高效的参数微调快速适应新机器人领域。OpenVLA权重和PyTorch训练管道是完全开源的可以从HuggingFace下载和微调该模型。OpenVLA构建在Llama 2语言模型之上并结合了视觉编码器融合了DINOv2和SigLIP的预训练特征。作为增加的数据多样性和新模型组件的产物OpenVLA在通才操作方面表现出了强大的性能在29个任务和多个机器人实例中绝对任务成功率超过RT-2-X55B等封闭模型16.5%参数减少了7倍。进一步实验表明可以有效地微调OpenVLA以适应新的设置在涉及多个对象和强语言基础能力的多任务环境中具有特别强的泛化结果并且比从头开始的模仿学习方法如扩散策略高出20.4%。
3 OpenVLA 模型 Figure 5: OpenVLA model architecture. Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions. The architecture consists of three key components: (1) a vision encoder that concatenates Dino V2 and SigLIP features, (2) a projector that maps visual features to the language embedding space, and (3) the LLM backbone, a Llama 2 7B-parameter large language model.
3.1 VLM模型
VLM模型架构由三个主要部分组成见图5
Visual Encoder将图像输入映射为image patch embeddings。Projector将视觉编码器的output embeddings映射到语言模型的输入空间。Large Language Model Backbone大型语言模型LLM主干。
VLM是一个典型的端到端训练模型。本方案以Prismatic-7B VLM模型为基础。
Prismatic遵循上述相同的标准架构具有600m参数的视觉编码器一个2层MLP Projector和一个7B参数的Llama 2语言模型主干。值得注意的是Prismatic使用了两个视觉编码器由SigLIP和DinoV2模型组成。输入图像patch分别通过两个编码器传递结果特征向量按通道连接。
与更常用的视觉编码器如CLIP或仅SigLIP编码器相比DinoV2特征已被证明有助于改进空间推理这对机器人控制尤其有帮助。
SigLIP、DinoV2和Llama 2没有公布有关它们的训练数据的细节这些数据可能分别由数万亿个来自互联网的图像-文本、纯图像和纯文本数据组成。
Prismatic VLM使用LLaVA 1.5数据混合在这些组件之上进行了微调利用包含来自开源数据集的约1M图像-文本和纯文本数据样本。
3.2 VLA训练过程
为了训练OpenVLA我们对预训练的Prismatic - 7B VLM主干进行微调用于机器人动作预测见图5。我们将动作预测问题表述为“视觉语言”任务其中输入观察图像和自然语言任务指令被映射到预测机器人动作串。
3.3 训练数据集
构建OpenVLA训练数据集的目标是捕获大量不同的机器人embodiments, scenes, and tasks。这使得最终模型能够控制各种机器人开箱即用并允许对新机器人设置进行有效的微调。我们利用Open X-Embodiment数据集作为基础来管理我们的训练数据集。
完整的OpenX数据集由70多个独立的机器人数据集组成其中包含超过2M个机器人轨迹这些数据集在大型社区的努力下汇集成一个连贯且易于使用的数据格式。为了使对这些数据的训练可行我们对原始数据集OpenX应用了多个数据管理步骤。
限制训练数据集仅包含至少一个第三人称摄像机的操作数据集并使用单臂末端执行器控制。对通过第一轮过滤的所有数据集利用Octo数据混合权重。Octo启发式地降低或删除多样性较小的数据集并增加具有较大任务和场景多样性的数据集的权重。还尝试将一些额外的数据集合并到我们的训练混合数据中。这些数据集是自Octo发布以来添加到OpenX数据集的包括DROID数据集尽管混合权重为10%。在实践中我们发现在整个训练过程中未来可能需要更大的混合权重或模型来适应其多样性。
3.4 图形分辨率
输入图像的分辨率对VLA训练的计算要求有显著影响因为更高分辨率的图像导致更多的image patch tokens从而导致更长的上下文长度从而二次增加训练计算量。比较了224 × 224px和384 × 384px分别率发现后者训练时间长增加了3倍但性能没有明显增长。因此OpenVLA模型最终选择了224 × 224px分辨率。
3.5 视觉编码器微调
先前对VLM的研究发现在VLM训练期间冻结视觉编码器通常会导致更高的性能。直观地说冻结视觉编码器可以更好地保留从互联网规模的预训练中学到的鲁棒特征。然而我们发现在VLA训练期间微调视觉编码器对于良好的VLA性能至关重要。我们猜测预训练的视觉主干可能无法捕捉到场景重要部分的足够细粒度的空间细节从而无法实现机器人的精确控制。
3.6 训练轮数、学习率
典型的LLM或VLM最多在训练数据集上完成一两个epoch。相比之下我们发现对于VLA训练来说在训练数据集中迭代多次是很重要的性能会不断提高直到训练动作令牌的准确率超过95%。我们最后完成了27个epoch。
我们在VLA训练上使用过多个数量级的学习率最终2e-5的固定学习率与VLM预训练期间使用的学习率相同获得了最佳结果而且发现学习率warmup不会带来好处。
3.7 训练硬件设施
用64个A100 GPU训练了14天总共21,500个A100小时批量大小设置为2048。
在推理过程中OpenVLA在bfloat16精度加载时需要15GB的GPU内存并且在一个NVIDIA RTX 4090 GPU 以6Hz的速度运行。
3.8 Parameter微调
具体来说我们比较了以下几种微调方法
在微调期间完全微调更新所有权重只微调OpenVLA的transformer骨干和令牌嵌入矩阵的最后一层Freezes视觉编码器但微调所有其他权重Sandwich微调Unfreezes视觉编码器、令牌嵌入矩阵和最后一层LoRA采用流行的低秩自适应技术将多个秩值应用于模型的所有线性层。
4.写在最后
随着Nerf、3DGS技术的发展感知道路结构的技术逐渐成熟这减少了对百度、高德等高清地图的依赖即使在普通导航地图区域也能感知标准的道路结构大大提升了自动驾驶系统实用性。目标、障碍物检测和道路结构感知逐渐统一但决策规划仍以Rule-based为主导致算法迭代需要大量人力代码复杂且泛化能力有限。
随着Tesla V13版本的发布基于强化学习的决策规划算法有潜力超越经过大量人力资源精心打磨的规则式算法而且感知和规划可以融合为一个AI模型即端到端自动驾驶大模型。