当前位置: 首页 > news >正文

周口专业做网站公司ui培训班多少钱

周口专业做网站公司,ui培训班多少钱,赤峰公司做网站,xampp wordpress 太慢25年1月来自清华大学和上海姚期智研究院的论文“UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent”。 视觉-语言-动作 (VLA) 模型的最新进展#xff0c;利用预训练的视觉语言模型 (VLM) 来提高泛化能力。VLM 通常经过视觉语言理解任务的预训练利用预训练的视觉语言模型 (VLM) 来提高泛化能力。VLM 通常经过视觉语言理解任务的预训练提供丰富的语义知识和推理能力。然而先前的研究表明VLM 通常专注于高级语义内容而忽略低级特征从而限制了它们捕获详细空间信息和理解物理动态的能力。这些方面对于机器人控制任务至关重要但在现有的预训练范式中仍未得到充分探索。本文研究 VLA 的训练范式并介绍 UP-VLA一种统一的 VLA 模型训练具有多模态理解和未来预测目标可增强高级语义理解和低级空间理解。 构建能够在开放环境中解决多项任务的视觉-语言-动作 (VLA) 模型 (Brohan2023Li2023b) 已成为机器人研究的重点。VLA 模型的一种有前途的方法涉及在机器人动作数据集上微调大规模预训练的视觉语言模型 (VLM) (Li2023aWang2022Dai2024Driess2023)并结合适当的动作建模组件 (Jang2022Li2023bWu2023Zhang2024Kim2024Zheng2024b)。这种方法使 VLA 模型能够继承强大的 VLM 中编码的语义知识和推理能力从而增强未知环境中的决策能力。 然而之前的研究已经发现 VLM 的某些弱点特别是在捕获低级信息和理解物理动态方面Zheng2024aChen2024a。Zheng2024a强调如果没有额外的训练VLM 在低级视觉任务中表现较弱。Chen2024aWen2024指出预训练的 VLM 缺乏空间理解无法捕捉距离和大小差异等低级细节。此外研究Balazadeh2024Ghaffari KrishnaswamyLi2024揭示 VLM 在理解物理动态方面的能力面临着重大挑战。这些限制主要归因于 VLM 的预训练范式Wen2024Chen2024a该范式优先考虑多模态理解任务例如视觉问答 (VQA)这些任务可以增强语义推理但可能会忽略对具体决策任务至关重要的低级细节。虽然当前预训练方法提供的泛化优势是可取的但它们提出一个重要的问题是否可以开发出更好的训练流程来结合两全其美的优势既保留语义理解又强调对控制至关重要的低级特征 用于通用机器人策略的 VLA 模型。最近的研究探索 VLMLi2023aWang2022Dai2024Driess2023Wang2023在机器人技术中的应用利用其对语言指令和视觉场景的强大理解。一个值得注意的例子是 RT-2Brohan2023它直接利用 VLM 自回归生成离散动作token展示 VLA 方法的语义基础能力。最近的研究旨在增强 VLA 模型使其具有更好的泛化性能 (Kim et al., 2024; O’Neill et al., 2023)、跨实体控制能力 (Black et al., 2024) 和更高的推理效率 (Zhang et al., 2024)。之前的研究 3D-VLA (Zhen et al., 2024) 也探索用于多模态理解和生成的协同训练但侧重于引入 3d 信息并使用单独的扩散模型进行生成。 机器人的视觉预训练方法。利用预训练的视觉模型进行机器人感知已成为机器人控制的一个重要研究领域。早期的研究Brohan2022Jang2022采用预训练的视觉编码器如 ViTDosovitskiy2020和 EfficientNetTan Le2019来编码视觉观察。最近许多研究结合生成模型Ho2020Blattmann2023通过未来帧预测Guo2024和视频生成Du2024来训练策略。例如SuSIEBlack2023通过预测关键帧来学习机器人动作而 GR-1Wu2023则通过视频生成直接预训练策略。 PADGuo2024采用扩散模型同时预测未来图像和多步骤动作。IGORChen2024b使用压缩视觉变化的潜动作作为低级动作的中间目标。这些研究强调视觉预测任务可以有利于模型对未见过的场景的视觉泛化。 本文提出一个 UP-VLA 模型如图所示其通过多模态理解目标和未来预测目标进行预训练更好地捕捉高级语义信息和低级空间细节增强具身决策任务。 语言条件下的操作问题被认为是在由指定特定任务的自由形式语言指令 l 和初始观察 o_1 建模环境下的决策序列。为了演示 D {τ_1,τ_2,···,τ_n}其中每帧 τ_i {(o_t,a_t)} 包含视觉观察 o 和动作 a。视觉-语言-动作 (VLA) 模型通常通过最小化 aˆ ∼ π_θ (o, l) 之间的误差来训练 VLM π_θ 作为机器人动作策略。利用 VLM 的多模态理解能力VLA 在任务之间具有更好的泛化能力尤其是增强了对未见过目标的语义理解并提高了理解或推理复杂自然语言指令的能力。 按照 SeeD-XGe2024和 ShowoXie2024等方法用离散图像编码器来处理图像生成任务的编码和解码同时使用连续视觉编码器来处理多模态理解和推理任务。在训练期间LLM 输入会根据任务类型给出提示。 这里目标是为 VLA 开发更好的训练方案。如图所示UP-VLA、基于 VLM 的 VLA 模型和基于预测模型之间的比较。注右下角的图表展示模拟和现实环境中多个任务的性能从每种方法中选择最佳的模型。 主干 如图所示用 Phi-1.5 (Li et al., 2023c) 作为底层大语言模型。对于多模态理解任务遵循标准 VLM 编码方法通过 CLIP-ViT (Radford et al., 2021) 编码器将图像投射到语言嵌入空间中。然后将这些投影的图像特征与语言嵌入连接起来并输入到大语言模型中。对于图像预测任务用 VQ-GAN (Esser et al., 2021) 将当前观察的图像编码为离散tokens。不使用噪声预测或掩码重建而是直接预测在输出token相应位置上的未来图像 token这鼓励模型关注当前帧中的视觉信息并预测以语言为条件的未来变化。 连接视觉预测和多模态理解 为了使 LLM 同时具备视觉预测和多模态理解能力在训练过程中结合来自机器人数据和图像文本对的未来预测任务。这两类任务可以编码成统一的格式以便通过 LLM 主干网混合和并行处理。因此扩展一下多任务方法。 多模态理解。给定一个成对的图像文本问答集 (I,L)通过连续编码器和连接层 E_1 将图像编码到语言嵌入空间中得到 u {u_i} E_1(I)。这些嵌入与文本嵌入 l {l_i} 连接起来形成多模态输入。为了生成一个可以在理解语言的同时关注图像的文本序列修改因果注意机制以便图像token可以互相关注如图a所示。最后用自回归的方式预测下一个语言token。这个任务可以简要描述为 Lˆ π_θ^MMU (I, L)。 未来视觉预测。对于图像预测给定时间 t 的图像和指令对 (O_t , L)用离散编码器 E_2 对当前的视觉观察进行编码v_t {v_i } E_2 (O_t )。与多模态理解任务不同视觉预测的目标是通过关注指令提示来编码未来的视觉观察。因此如图b所示将图像token放在语言token之后使图像能够关注所有输入信息。同时引入一个特殊 token PRE 来表示这个新任务。我们不使用下一个 token 预测而是在图像 token 的相同位置对未来的图像 token 进行建模这样任务描述为ˆO_t∆t π_θ^PRE(O_t, L)。 通过联合的预测和理解增强动作学习 虽然先前的 VLA 方法利用预训练 VLM 的多模态理解知识但它未能利用丰富的视觉信息和物理动态。 为了解决这一限制提出一种联合预测和理解行动学习机制。将动作输出与图像预测任务相结合。给定当前的观察-指令对 (O_t, L)模型预测未来的观察和每个时间步的动作序列(Oˆ_t∆t, Aˆ_t:t∆t)π_θ^PRE(O_t, L)其中 Aˆ对应于动作token位置的最后一层特征。 此外如上图© 所示用模型本身生成的场景描述扩展语言指令输入。观测 Ot′ 经过连续视觉编码器 E_1 MLP(VIT) 处理后被映射到语言嵌入空间 E_1(O_t′) 中可直接用作语言token。最后一个组件 π_θ^MMU (O_t, L_prompt) 是当前场景的生成描述其中 L_prompt 是特定提示例如“描述此图像”。 最后通过联合预测生成动作 ( Oˆ_t∆t, Aˆ_t:t∆t ) π_θ^PRE (O_t, L′ )。用一个小型策略头来输出低级动作其由一个 MAP 模块单层注意模块和一个线性层组成aˆ_t:t∆t MLP(MAP(Aˆ_t:t∆t))。 训练策略 用 Show-o (Xie et al., 2024) 初始化 UP-VLA 的主干。在训练期间对 LLM 的参数进行全面微调并冻结所有编码器。训练过程可分为两个阶段。在第一阶段目标是赋予 VLM 视觉预测和多模态理解能力。在第二阶段专注于使用机器人数据学习动作。对不同的任务应用不同的采样率。 预测和理解预训练阶段。将两个域的训练数据混合在一起一部分来自 BridgeDataWalke2023其中包括 25k 个机械臂演示。这些数据用于未来预测。另一部分来自 LLava-tuning-665kLiu2024其中包括 665k 个图像-文本对用于增强高级理解能力。 使用动作调整阶段进行预测。该模型在下游具体化任务上进行微调。用联合预测-和-理解的动作学习方法训练 UP-VLA。继续与图像-文本对一起训练以保持多模态理解能力。 UP-VLA 方法涉及三个建模目标用于多模态理解的语言建模、用于视觉预测的图像建模和用于具身任务的动作建模。 用于多模态理解的语言建模。给定 M 个视觉token u {u_i} 和 N 个文本token l {l_i}用交叉熵损失最大化下一个token似然。 用于视觉预测的图像建模。对于未来的图像预测任务给定 M 个当前图像tokens v_t {v_i} 和指令tokens l {l_i}用交叉熵来预测未来的图像token。 具身任务的动作建模。最小化预测相对位置 aˆ_pos 与真实动作 a_pos 之间的均方误差 (MSE)。末端执行器的离散状态 a_end 通过二元交叉熵损失 (BCE) 进行优化。 最后将这三个损失项组合在一起为最终损失。 对模拟评估用 CALVINMees2022一个开源基准用于学习长时间语言条件任务。如图a所示CALVIN 环境包含 4 个不同的场景表示为 ABCD。在 ABCD-D 和 ABC-D 设置上评估 UP-VLA。 现实世界实验涉及 Franka-Emika Panda 机器人上的多个桌面操作任务包括拾取和放置、布线、按下按钮和打开抽屉。具体来说收集 6 项技能的 2000 多个演示。如图b所示在简单场景中训练 UP-VLA同时在更复杂的设置上对其进行测试。在桌子上放置几个见过和未见过的目标来引入干扰并测试模型是否可以抓住全新的目标以验证其语义基础能力。同时评估模型执行更细粒度任务的能力例如布线、抓取较小的未见过的块或拿起笔。
http://www.w-s-a.com/news/298949/

相关文章:

  • 网站开发公司oa有没有找人做标书的网站
  • 传统门户网站有哪些人武部正规化建设
  • 台州网站制作方案免费无代码开发平台
  • 精通网站建设 pdf微盘学做电商的步骤
  • 想在网上做设计接单有没有网站找一个免费域名的网站
  • 湘潭市网站建设科技有限公司杭州网站建设(推荐乐云践新)
  • 优秀网站评析西双版纳傣族自治州民宿
  • 常用的cms建站系统c2c网站模板
  • wordpress更换图标seo网站建设公司
  • 网站备案 深圳小程序怎么进入公众号
  • 实名认证域名可以做电影网站吗坪山网站设计的公司
  • wdcp怎么上传做好的网站管理咨询公司名称参考
  • 设计师网站pin分销系统小程序开发
  • 高端品牌网站建设兴田德润实惠企业网站建设应该怎么做
  • 做研学的网站优秀软文案例
  • 网站个人简介怎么做建设网站卡盟
  • 影楼做网站安庆建设机械网站
  • 访问网站的原理wix做网站流程
  • 众鱼深圳网站建设设计师网名叫什么好听
  • 中小学生做试卷的网站6网站建设需要注意哪些细节
  • 以个人名义做地方门户网站社保服务个人网站
  • 上海企业做网站设计制作感悟150字
  • asp.netmvc网站开发ps设计网页
  • win2008 挂网站 404官方网站是什么
  • 网站只做内容 不做外链做姓氏图的网站
  • 中国建设银行信用卡黑名单网站wordpress怎么解密密码
  • 建设银行如何网站设置密码广州网站营销推广
  • 企业做网站的步骤与做网站注意事项四川省住房建设厅网站打不开
  • 网页设计网站规划报告百度文库官网登录入口
  • 郑州医疗网站开发wordpress能注册