当前位置: 首页 > news >正文

编程scratch网站网站建设需要多少费用

编程scratch网站,网站建设需要多少费用,空间站做网站什么版本,图片代码如何做网站25年1月来自UCSD的论文“Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation”。 大型多模态模型 (LMM) 的视觉推理能力和 3D 特征场语义丰富性的最新进展#xff0c;拓展了机器人能力的范围。这些发展对于弥合 LMM 高级推理与利用 3D 特征场低…25年1月来自UCSD的论文“Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation”。 大型多模态模型 (LMM) 的视觉推理能力和 3D 特征场语义丰富性的最新进展拓展了机器人能力的范围。这些发展对于弥合 LMM 高级推理与利用 3D 特征场低级控制策略之间的差距具有巨大潜力。这项工作引入 LMM-3DP这是一个可以整合 LMM 规划器和 3D 技能策略的框架。该方法包括三个关键角度高级规划、低级控制和有效集成。对于高级规划LMM-3DP 支持对环境干扰的动态场景理解、具有自我反馈的批评智体、历史策略记忆和失败后的重试。对于低级控制LMM-3DP 利用语义感知的 3D 特征场进行精确操作。在协调机器人动作的高级和低级控制时代表高级策略的语言嵌入与 3D Transformer 中的 3D 特征场共同参与以实现无缝集成。在现实厨房环境中对多种技能和长期任务的方法进行广泛评估。与基于 LLM 的基线相比该结果表明低级控制的成功率显著提高 1.45 倍高级规划准确率提高约 1.5 倍。 LLM-3DP 如图所示 制造能够执行现实世界中各种长期任务的通用机器人是一个长期存在的问题。大语言模型 (LLM) 推动机器人技术的最新进步这些模型在理解现实世界和常识推理方面表现出非凡的能力。一些研究利用 LLM 将抽象任务分解为一系列高级语言指令以进行规划 [1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]。尽管 LLM 在各种现实世界任务中取得重大进展但目前将其集成到机器人技术中存在几个主要缺点。首先LLM 只能处理自然语言而不能理解视觉因此很难理解和适应需要丰富视觉信息的动态现实世界场景。此外基于 LLM 的规划器通常依赖人类语言反馈来持续执行长期规划 [10]、[5]、[6]这严重限制自主性。然而具有多感官输入的大型多模态模型 (LMM) 已成为一种强大的工具可为机器人配备强大的视觉理解和跨各种环境的泛化能力。这使机器人能够根据环境变化调整语言规划。 现有的基于 LLM 的规划器通常依赖一组预定义的原始技能进行低级控制 [1]、[2]、[11]、[12]、[3]、[13]这是大规模应用到开放世界环境的主要瓶颈。因此对于大多数基于 LLM 的框架来说如何以数据高效的方式获得能够适应新环境的鲁棒低级技能是一个巨大的挑战。最近的一些研究使用 LLM 直接输出低级控制 [14][15]。然而它们只在相对简单的操作任务中有效这些任务不涉及快速的高维控制。由于 3D 理解不足LLM 通常会在需要有效理解场景 3D 结构的复杂环境中失败。此外最近的研究利用视觉-语言模型 (VLM) 进行视觉基础研究预测目标物体的边框或关键点 [16][1]。尽管结果很有希望但它们依赖于现成的 VLM而这些 VLM 可能并未针对动态环境中的特定复杂任务进行完全优化。 LLM 作为任务规划器。大语言模型 (LLM) 的最新进展极大地影响机器人在各种应用中的发展。值得注意的方法通常包括使用 LLM 生成高级规划 [1]、[2]、[3]、[4]、[20]。例如SayCan [1] 通过生成可行的语言规划并采用affordance 函数来衡量技能的执行可能性强调 LLM 非凡的常识推理能力。一些方法还利用 LLM 生成编程代码或符号 API 作为规划 [12]、[21]、[8]、[22]、[23]、[24]、[25]。然而这些方法仅将自然语言指令作为输入缺乏通过多模态感官观察感知世界的能力。因此它们无法根据环境反馈调整语言规划这严重限制它们在动态现实环境中的性能。由于 LMM 的出现一些研究 [26]、[27]、[28] 利用 GPT-4V [17] 进行视觉输入规划。然而他们只将 GPT-4V 用作一个固定的规划器没有批评和自我改进。 低级机器人原语。尽管在高级规划方面取得了重大进展但之前基于 LLM 的语言规划器 [1]、[2]、[11]、[12]、[3] 强烈假设存在可靠的低级技能供高级规划器检索这些技能通常是手动预定义的技能集。一些研究 [14]、[12]、[29]、[30] 使用 LLM 在文本中输出直接的低级控制这对于应用高维控制的复杂现实世界任务是不切实际的。一些方法 [16]、[31]、[32]、[33]、[34] 还利用视觉语言模型 (VLM) 来推断基于语言的功能 affordance 并执行运动规划。然而对于具有多种几何形状和复杂 3D 结构的具有挑战性环境它们仍然缺乏准确的 3D 理解。然而LMM-3DP 通过将高级规划器与语言条件 3D 策略相结合来解决这一挑战该策略可以通过对场景结构的全面 3D 理解有效地学习新技能。 低级技能的 3D 表示。为了学习针对各种技能的视觉模仿学习策略大多数先前的研究 [35]、[36]、[37]、[38]、[39]、[40] 一直在利用基于 2D 图像的表示进行策略训练而最近的研究越来越多地认识到 3D 表示相对于 2D 图像的优势 [41]、[42]、[43]、[44]、[45]、[46]。 GNFactor [42] 和 DNAct [43] 通过从视觉基础模型中提取 2D 特征来学习 3D 表示。然而它们仍然需要费力的多视图图像收集来训练 NeRF [47] 模型这对大规模部署构成了挑战。 如图所示LLM-3DP流水线 用于高级规划的 LMM 带视觉反馈的规划。在现实世界中执行任务的最佳规划可能不是最初设计的规划。例如你可能规划将蔬菜放在最喜欢的蓝色碗里作为晚餐但当发现蓝色碗不可用时你会改用红色碗。同样在机器人规划中机器人必须能够根据当前情况更新其规划这需要在任务执行期间提供视觉反馈。将 GPT-4V 作为规划器集成到机器人的执行循环中使其能够在每次执行技能后更新规划。这种设计增强机器人适应动态场景例如当存在环境干扰时的能力并在低级控制无法执行时重新尝试之前的技能。 评论家智体。为了确保规划器生成的规划正确可靠引入一个额外的评论家智体以主动识别生成规划中的缺陷并不断自我改进。评论家智体仅将视觉观察和提出的规划作为输入无需人工指令它会检查下一步在当前情况下是否可行。如果评论家发现执行下一步将导致不良结果则其推理将输入回规划器然后规划器提出新规划。例如规划器的输出很容易受到人类指令的影响。即使使用流行的提示技术 [49]这个问题仍然存在。如果人类指令是关闭所有抽屉但场景中有些抽屉已经关闭规划器仍可能生成一个涉及关闭所有抽屉的规划。但是评论家可以准确地判断机器人不应该关闭已经关闭的抽屉从而纠正规划器的错误。 终身学习。目标是让规划器随着时间的推移而改进并通过从过去的经验中学习来避免重复犯错就像人类学习一样。然而对规划器进行微调需要耗费大量的计算资源。相反利用人类对 GPT-4V 输出规划和推理的批评然后总结这些批评以进行上下文学习。这些总结被存储为记忆供规划者将来参考。此外规划者可以在必要时向技能库提出新技能然后低级策略将根据这些新技能进行相应更新。例如在烹饪任务中如果没有点击技能机器人就无法打开炉子。规划者会将点击技能确定为未来学习的必需技能。随着技能库的扩展这种方法使提出的框架能够处理更复杂的任务。 如图所示是规划器如何在机器人执行期间更新规划的示例 使用 3D 语义表征的技能学习 根据规划器生成的语言指令训练一个语言条件化的 3D 策略从人类演示数据中学习所需的低级技能。不是预测每个连续动作而是提取关键帧动作并将技能学习转换为基于关键帧的动作预测问题。这种方法简化连续控制并且在学习可处理新目标和环境的泛化策略时样本效率更高。 视觉和语言编码器。为了应对具有各种目标和场景结构的复杂现实环境采用双分支架构学习统一的 3D 和语义表示i使用互联网规模数据进行预训练的视觉基础模型在理解复杂场景方面取得了巨大成功具有强大的零样本泛化能力。为了在机器人技术中利用这些强大的视觉基础模型应用基础模型例如 DINO [48]来提取具有丰富语义的 2D 图像特征。然后将 2D 特征图反向投影到 3D 空间来获得 3D 点特征。ii尽管视觉基础模型具有丰富的语义但它仍然缺乏准确的几何理解。因此采用基于点模型的单独分支例如 PointNext [19]来学习几何点特征以更好地捕捉局部 3D 结构。随后语义和几何点特征都由 MLP 层融合。为了将语言理解纳入策略用来自 CLIP [50] 的预训练语言编码器来获得语言嵌入。 关键帧动作预测。给定融合的 3D 点特征、语言嵌入和机器人本体感受用 3D Transformer 架构来预测下一个最佳关键帧的 6-DOF 姿势。不再预测连续动作而是将模型预测简化为平移 a/trans、旋转 a/rot、夹持器张开度 a/open 和防撞概率 a/collision。具体来说通过在夹持器的工作空间中采样一组固定的查询点来近似连续的 3D 场。 这样做是因为与基于体素的方法这些方法会离散化输出空间并且内存效率低下不同基于采样的方法提供了连续的输出空间并在训练期间节省内存。还定义一个可学习的 token以更有效地关注局部结构。查询点和可学习的token都通过具有视觉和语言特征的多个交叉注意层以获得 token 特征 f/t 和查询点特征 f/q。然后计算 f/t 和 f/q 的内积为每个查询点分配一个分数。通过对分数应用 argmax 运算来选择下一个最佳路径点 P/i。受 [51] 的启发随后在 P/i 周围重新采样一组减少的查询点并根据之前的预测在这些查询点中优化路径点的选择。 对于平移计算预测点索引 Q/trans 与真值 Y/trans 之间的交叉熵损失。将标签平滑函数 LS 应用于平移损失以防止过拟合并减轻现实世界演示中的标签噪声。 实验设置和实施细节如下。 为实验设置一个真实的厨房环境与简单的桌面设置相比该环境更复杂并且具有更多视觉特征。机器人是一个 7-DoF Franka Emika Panda 机器人带有 1-DoF 可变形夹持器。对于视觉输入使用两个 Intel RealSense D435 摄像头一个提供正面视图另一个安装在夹持器上。为了收集基于模仿学习的低级策略数据用 HTC VIVE 控制器和基站来跟踪人类手部运动的 6-DOF 姿势。然后用 SteamVR 将控制器运动映射到 Franka 机器人的末端执行器。在低级策略训练中对一个厨房设置使用 100 个人类演示对两个厨房设置使用 200 个演示每个任务 10 个演示。用 Adam 优化器学习率为 3 × 10−4。训练在一台 NVIDIA GeForce RTX 3090 上进行批次大小为 16。用色彩丢失和平移增强的技术来提高模型性能。
http://www.w-s-a.com/news/449018/

相关文章:

  • 影视公司网站建设网页界面设计分辨率是多少dpi
  • 免费的做微博的网站模板wordpress 页面 首页
  • 摄影图片网站网站辅导运营与托管公司
  • 做课件的网站长春免费建站模板
  • 响应式网站模板下载免费wordpress 小工具移动
  • 网站标签title在线app制作平台
  • 做电器推广的网站简洁大方的网站模板
  • 网站开发的平台100个详情页设计图
  • wordpress淘宝客建站教程视频知名的设计公司网站
  • 批量做单页网站怎么直接用代码做网站
  • 百度收录较好的网站办公室装修设计方案
  • 建设购物网站要求cnzz数据统计
  • 深圳自适应网站建设价格广东网站建设软件
  • 网页设计介绍北京网站自己做彩票网站
  • 最牛论坛网站app生成链接
  • 用jsp做的网站源代码网站优化说明
  • 网站建设公司名字甘肃省和住房建设厅网站
  • 做外贸网站需要什么卡网站建设公司怎样
  • 网站关键词密度怎么计算的中文版wordpress
  • asp网站建设教程如何在线上推广自己的产品
  • 电脑网站你懂我意思正能量济南网站建设公司熊掌号
  • 杂志社网站建设萧山区网站建设
  • 电商网站前端制作分工网站怎做百度代码统计
  • 免费的html大作业网站网站开发心得500字
  • 临时工找工作网站做美缝帮别人做非法网站
  • 深圳网站建设 设计创公司新昌网站开发
  • 唐山教育平台网站建设上海装修网官网
  • 一个公司做多个网站什么行业愿意做网站
  • 成都龙泉建设网站免费域名app官方下载
  • xss网站怎么搭建如何用wordpress站群