当前位置：首页 > news >正文

怎样建网站步骤汕头市网络科技有限公司

news 2026/4/9 3:45:51

怎样建网站步骤,汕头市网络科技有限公司,网站设计方案报价,外贸网站价格xx RobotGPT: Robot Manipulation Learning From ChatGPT 文章概括摘要I. 介绍II. 相关工作III. 方法论A. ChatGPT 提示机器人操作B. 机器人学习 IV. 实验A. 衡量标准B. 实验设置C. 模拟实验D. 真实机器人实验E. AB测试 V. 结论文章概括引用#xff1a; article{jin2024r…xx RobotGPT: Robot Manipulation Learning From ChatGPT 文章概括摘要I. 介绍II. 相关工作III. 方法论A. ChatGPT 提示机器人操作B. 机器人学习 IV. 实验A. 衡量标准B. 实验设置C. 模拟实验D. 真实机器人实验E. AB测试 V. 结论文章概括引用 article{jin2024robotgpt,title{Robotgpt: Robot manipulation learning from chatgpt},author{Jin, Yixiang and Li, Dingzhe and Yong, A and Shi, Jun and Hao, Peng and Sun, Fuchun and Zhang, Jianwei and Fang, Bin},journal{IEEE Robotics and Automation Letters},year{2024},publisher{IEEE} }Jin, Y., Li, D., Yong, A., Shi, J., Hao, P., Sun, F., Zhang, J. and Fang, B., 2024. Robotgpt: Robot manipulation learning from chatgpt. IEEE Robotics and Automation Letters.原文https://ieeexplore.ieee.org/abstract/document/10412086/ 代码、数据和视频暂无系列文章请在《《《文章》》》专栏中查找摘要我们提出了 RobotGPT这是一个用于机器人操纵的创新决策框架它将稳定性和安全性放在首位。由 ChatGPT 生成的执行代码无法保证系统的稳定性和安全性。ChatGPT 可能会对同一任务给出不同的答案从而导致不可预知性。这种不稳定性阻碍了将 ChatGPT 直接集成到机器人操纵回路中。虽然将温度设置为 0 可以产生更一致的输出但可能会导致 ChatGPT 失去多样性和创造性。我们的目标是利用 ChatGPT 在机器人操纵中解决问题的能力训练出一个可靠的代理。该框架包括有效的提示结构和稳健的学习模型。此外我们还引入了衡量任务难度的指标以评估 ChatGPT 在机器人操纵中的表现。此外我们还在模拟和真实环境中对 RobotGPT 进行了评估。与直接使用 ChatGPT 生成代码相比我们的框架显著提高了任务成功率平均成功率从 38.5% 提高到 91.5%。因此与直接使用 ChatGPT 作为任务规划器相比利用 ChatGPT 作为专家来训练 RobotGPT 是一种更稳定的方法。索引词条——人工智能机器人、从演示中学习、操纵规划。 I. 介绍大型语言模型LLM在各种任务中都取得了令人瞩目的成就包括但不限于文本生成、机器翻译和代码合成。最近越来越多的工作[1]、[2]试图将 LLM 纳入机器人系统。之前的工作表明LLM 能够以零点方式进行机器人系统规划。然而迄今为止还没有任何研究能够全面探讨 LLM 能够解决哪些任务。此外LLM 的快速发展也对人机交互HRI产生了重大影响。人机交互研究涉及更广泛的领域如虚拟现实、智能空间等。为了提高面向用户的普及率让人们更舒适、更方便地使用机器人自然交互是关键技术之一。目前自然语言交互的探索已经取得了一些进展[3]但也存在很多不足。然而在使用场景的通用性和语言模型的理解方面仍略显不足。最近出现的 ChatGPT 提高了人们对语言模型的期望。ChatGPT 凭借其强大的代码模型生成能力和会话灵活性在各种语言模型中脱颖而出展现了惊人的理解能力让用户能以更自然的方式与机器人进行交互。现有的代表作品利用 ChatGPT 生成可直接部署在机器人上的代码事先描述任务目标和 ChatGPT 可用的函数库然后利用 ChatGPT 操纵不同的机器人执行功能如无人机导航、机器人在连续循环反馈后用自然语言抓取物体等。ChatGPT 能够从自然对话中解析用户意图并从自然对话中生成解决问题的代码这揭示了 ChatGPT 在机器人领域应用的巨大潜力[1]。在这封信中我们对 ChatGPT 在机器人操纵领域的应用进行了深入研究。我们的目标是推动 ChatGPT 在机器人领域的实际应用。通过 ChatGPT我们实现了一个将环境和任务转化为自然语言的框架。随后ChatGPT 生成具体的行动指令代码用于训练代理 RobotGPT使其充分利用 ChatGPT 的问题解决能力。机器人可以间接地使用自然语言与外界互动从而设计合理的动作序列并实现相应的功能如拾取和放置。我们还对与 ChatGPT 的对话提出了一些建议即如何构建提示语以便 ChatGPT 能更准确、更深入地理解。此外我们还指出了这种交互的局限性和安全风险以及解决问题的简单思路。总的来说我们的主要贡献如下 \quad 1) 我们探索了一种带有自我纠正模块的有效提示结构并在不同难度的任务上进行了实验以探索 ChatGPT 在机器人任务上的能力边界。 \quad 2) 我们为 ChatGPT 在机器人领域的应用提出了一个新颖的框架。我们的系统并不直接执行 ChatGPT 生成的代码。相反我们采用一个代理来学习 ChatGPT 生成的规划策略从而提高系统的稳定性。虽然微调可以提高精度[4]但训练数据很难获得。 II. 相关工作用于机器人技术的 LLMs 通过语言控制机器人能为非专家带来更自然的交互[5]。使用语言控制机器人需要考虑稳定性和通用性 [4]。有关这一问题的文献很多总体上分为高级解释如语义解析、规划[6]和低级策略如基于模型、模仿学习或强化学习[7]。大型语言模型LLM具有强大的通用智能能力。与此同时用于机器人的大型语言模型也受到了广泛关注[8]。与我们的研究工作相关的典型文献如下。[9]提出 LLMs 可以有效地将高层任务分解为中层计划而无需任何进一步的训练。[2]基于 LLMs 构建几何可行计划。 [10]使用价值函数来评估 LLMs 生成的每一步并选择最佳轨迹。[11] 基于 LLMs 建立系统学习特定人的偏好。[4] 使用 LLMs 生成以机器人为中心的程序。然而LLMs 输出的稳定性仍值得探索。机器人学习为了利用机器人与现实世界交互的能力机器人学习已成为研究热点[12]。当状态包括图像时深度学习推进了机器人学习的发展[13]。机器人学习的算法有很多。不过基于强化学习和模仿学习的算法仍是主流[14]、[15]。为了比较不同的强化学习算法人们提出了许多基准。其中[16]针对的是单一任务如开门、家具组装、徒手灵巧操作。[17]、[18] 有各种不同的环境但缺乏长视距任务。相对全面的基准是 RLBench [19] 和 BulletArm [20]。虽然基准提供了框架但如何获取机器人学习的数据仍然是个问题。 III. 方法论 ChatGPT 无法解析视觉输入并自行操作机器人。在这封信中我们利用模拟环境和基于自然语言的机器人应用程序接口来释放 ChatGPT 解决一般问题的能力。因此我们希望训练有素的代理 RobotGPT 能在任务规划层面吸收 ChatGPT 的知识。值得注意的是我们的框架很容易扩展到已经拥有所需对象的新模拟环境中。 A. ChatGPT 提示机器人操作最近人们对使用大型语言模型如 ChatGPT通过生成高级动作来直接控制机器人越来越感兴趣。然而由于以下几个原因这种方法可能并不合适。首先ChatGPT 生成的动作可能不安全或不稳定因为它们没有考虑到机器人的物理约束和限制。其次ChatGPT 缺乏对因果关系和时间依赖关系的推理能力而这对于控制复杂的机器人系统至关重要。因此我们提出了一种基于机器人学习的替代方法即用 ChatGPT 生成用于训练机器人的演示。通过充分利用语言模型和机器人学习的优势我们的目标是开发出更安全、更强大的机器人系统。在本节中我们将详细介绍与 ChatGPT 交互生成演示的框架。我们提出了一个与 ChatGPT 交互的框架它由两部分组成代码生成和纠错。在代码生成阶段用户描述任务并提供示例来指导 ChatGPT 的响应。这有助于确保 ChatGPT 生成适当的相关输出以满足用户的要求。在纠错阶段运行时错误和任务失败都被认为是正确的。 \quad 1) 提示描述有效的提示方法对于提高 ChatGPT 在各个领域的性能至关重要。Vemprala 等人[1]指出了当前为机器人操作提示 LLM 所面临的挑战 1) 需要对问题进行完整而准确的描述 2) 允许使用自然语言描述的应用程序接口 3偏向答案结构。在本节中我们将详细介绍用于机器人操作的有效提示方法。我们提出了一种由背景描述、对象信息、环境信息、任务信息和示例五个部分组成的提示方法。在背景描述部分我们描述了环境的基本信息如环境的目的、布局和相关实体。在对象信息部分我们列出了所有对象的名称、形状、姿势和其他有用信息例如它们的属性以及与其他对象的关系。在环境信息部分我们描述了 ChatGPT 可以用来执行任务的机器人和 API 功能。在任务信息部分我们给出了 ChatGPT 的具体任务通常是为给定任务生成 Python 代码。最后在示例部分我们提供了一些例子以便更好地理解环境和 API 的使用。根据 OpenAI 的建议[21]我们在 ChatGPT API 中设置了背景信息和 RobotAPI 信息作为系统信息以获得令人满意的回复。通过使用这种全面、结构化的提示方法我们希望提高 ChatGPT 在各种任务和领域中的准确性和效率。 \quad 2) 自我更正在生成复杂任务的回复时ChatGPT 可能偶尔会出现一些小错误或语法错误需要进行纠正。这封信介绍了一种纠正 ChatGPT 响应的交互式方法。为了采用这种方法我们首先在模拟器中执行生成的代码并评估结果。生成的代码将逐行执行当出现运行时错误时代码错误捕捉模块将捕捉运行时错误包括错误信息及其位置。然后这些数据会被发回 ChatGPT 决策机器人进行进一步分析。在结果为失败的情况下校正机器人可以根据提示分析失败的潜在原因并生成回复解释任务失败的原因。最后原 ChatGPT 决策机器人将根据纠正机器人的失败分析重新生成代码。利用这些反馈ChatGPT 会修正其响应并生成准确的代码。这一互动过程最多可重复三次。我们的目标是提高 ChatGPT 响应的精确度和可靠性使其在各个领域的相关性不断增强。 \quad 3) 生成代码评估根据 ChatGPT 生成的代码完成的任务应满足要求。为此一个自动、高效、精确的任务评估模块势在必行。如图 1 所示我们使用了一个名为评估机器人的 ChatGPT 来生成评估代码。评估机器人的提示与决策机器人有一些不同。如图 2 所示提示的结构保持不变但背景描述和机器人 API 的内容有所不同。评价机器人生成的函数 is_task_success() 将作为判断整个任务是否成功的标准。人类的作用是反复检查生成的评估代码是否正确。如果生成了错误的评估代码人类将介入进行纠正。这种设计可以最大限度地减轻人类的负担。图 1. 我们系统的架构。ChatGPT 在其中扮演三个角色即决策机器人、评估机器人和纠正机器人。操作员指示机器人完成任务然后根据环境信息和人类指令生成自然语言提示。决策机器人将根据提供的提示生成相应的可执行代码。接下来生成的代码将被逐行执行。如果出现运行时错误将向决策机器人提供错误原因和发生错误的代码行供其修改直到代码成功运行。然后可执行代码将由评估机器人生成的评估代码模型进行测试。如果可执行代码无法通过 Eval Code 测试校正机器人将分析结果失败的潜在原因并将这些失败原因反馈给决策机器人进行修正。之后满足评估条件的代码将用于生成演示数据。训练完成后经过训练的代理就可以完美地部署真正的机器人了。图 2. ChatGPT 的提示。 B. 机器人学习依靠 ChatGPT 执行一般机器人任务并不可靠因为 ChatGPT 的输出是随机的这夸大了机器人工作的风险。虽然将温度设置为零可以以降低多样性和创造性为代价产生一致的结果但也可能导致任务持续失败。为了解决这个问题我们期望机器人学习机器人策略吸收 ChatGPT 解决一般任务的知识。在机器人学习方面我们利用最先进的开源机器人操纵基准和学习框架 BulletArm [20]从 ChatGPT 生成的演示中训练代理。 \quad 1) 行动、状态空间和奖励由 ChatGPT 支持的专家演示是在模拟环境中生成的该环境由一个panda robot组成工作区顶部安装有摄像头。状态空间由自上而下的高度图 H H H、手持图像 I I I 和抓手状态 g ∈ { H O L D I N G , E M P T Y } g∈\{HOLDING,EMPTY\} g∈{HOLDING,EMPTY} 组成。动作空间包括机器人技能 A s ∈ { P I C K , P L A C E } A_s ∈\{PICK,PLACE\} As∈{PICK,PLACE} 和目标姿势 A p ∈ A x y θ A_p ∈A^{xyθ} Ap∈Axyθ. 其中 x x x 和 y y y 表示末端执行器的 XY \text{XY} XY 坐标 θ θ θ 表示沿 Z 轴的旋转。奖励设置为稀疏奖励函数其中当所有状态-动作对都达到目标状态时奖励为 1否则为 0。 \quad 2) 算法 BulletArm [20] 显示SDQfD [22] 的性能优于 DQN [23]、ADET [24] 和 DQfD[25]。在网络结构方面Equivariant ASR[14]在所有环境中表现最佳然后是 Rot FCN[26]和 CNN ASR[22]最后是 FCN[27]。如图 3 所示本文采用 SDQfD 算法[22]利用等变 ASR 网络[14]完成机器人学习任务。损失函数为 n 步 TD 损失与严格大余量损失之和。图 3. 机器人学习网络架构。 IV. 实验在本节中我们将在模拟环境和真实环境中对所提系统进行评估。表 I 和图 4 详细描述了我们的实验设置。更具体地说我们将重点解释以下问题图4. 我们实验中使用的八个任务。 Robot-GPT能否高效且安全地收集示范数据并在现实世界中部署从而缩小模拟与现实之间的差距我们的基于大型语言模型的机器人能否解决手动编码和非大型语言模型未能很好处理的问题 A. 衡量标准为了创建一个评分系统我们考虑以下三个方面物体数量o、物体类别c以及任务步骤数s。这三个因素是通过对32名机器人和计算机视觉领域的专家和工程师进行调查而确定的主要影响机器人桌面抓取任务的难度。问卷由两个主要部分组成第一部分是列出影响机器人操作难度的三个主要因素第二部分是对本实验的八个场景进行评分。结果如表II所示。在这三个因素中物体数量对难度的影响最大因此我们在评分中加大了它的权重。因此任务难度的评分可以通过以下公式计算 s c o r e o o ∗ c s (1) score o o * c s \tag{1} scoreoo∗cs(1) 得分在0到10之间的任务被视为简单得分在11到20之间的任务被认为是中等而得分超过20的任务被定义为困难任务。表II展示了实验中使用的任务及其对应的难度等级。从公式1计算的难度与问卷调查获得的主观结果基本一致除了“装箱”任务这表明该评估系统具有一般适用性。“装箱”任务的主观结果较简单是因为未考虑优化放置位置以填满箱子而不让物体掉落。在接下来的定量实验中我们将为每个任务生成25个随机场景并统计成功尝试的数量。 B. 实验设置图5展示了我们在模拟和现实环境中的实验设置。我们将RGB-D传感器直接安装在工作区上方以提供场景的清晰高度图。在模拟环境中机器人依靠PyBullet引擎进行运动控制而在现实世界中机器人则使用MoveIt和ros_franka进行运动规划和执行。图 5. 实验设置 C. 模拟实验表III展示了八个实验的定量结果。尽管每次输入相同的提示生成的代码和输出仍存在显著差异因为决策机器人的温度设定为1.0。此外ChatGPT生成的代码可能包含语法或逻辑错误。虽然我们的自我纠正模块可以修正一些语法错误但在大多数情况下如果ChatGPT初始生成的代码未能成功则很难在这个实验中实现成功。图6展示了由ChatGPT生成的错误规划导致的三种最常见失败情况。图6(a)显示了由于对任务要求的误解而导致的失败瓶子摆放任务要求将瓶子整齐地放置在托盘上而不是随意放置。图6(b)呈现了错误的动作顺序规划其中机器人在抓取图中叠放的积木。这是不合理的因为机器人应当抓取尚未堆叠的物体。在图6©中明显可以看出机器人的放置位置偏离了预期。因此ChatGPT可以为相同的提示提供不同的解决方案其中一些是正确的而另一些则是错误的。这就是我们提出RobotGPT框架作为一种更稳定的方法的原因。图 6. ChatGPT 生成的失败任务规划。图7展示了三个难度等级的成功率。对于ChatGPT随着任务难度的增加成功率显著下降简单、中等和困难任务的成功率分别为0.88、0.39和0.21。相比之下我们的RobotGPT模型在所有任务级别上都表现出稳健性平均成功率可达到0.915表现良好。图 7. 三种难度下的成功率 D. 真实机器人实验 RobotGPT的最终目标是利用ChatGPT的智能来帮助解决现实世界的问题。因此我们在与模拟环境相同的真实环境中部署了训练好的智能体。为了克服模拟与现实之间的差距原始深度图将通过物体分割和去噪处理进行预处理然后转换为高度图。此外为了确保机器人抓取和放置的连续过程在真实机器人测试中机器人在抓取动作后不会返回观察位置以捕获新的深度图而是基于夹持状态从之前的高度图中裁剪出当前高度图。在真实机器人实验中我们选择了如图8所示的六个场景每个实验进行了十次。最终表IV报告了我们的真实机器人测试结果。图 8. 真实机器人实验结果。从表IV可以看出执行步骤较少的任务往往成功尝试的次数较多。失败的主要原因并不是由于智能体的错误预测而是由于在放置过程中精度不足导致任务失败。因此探索在闭环循环中使用大型语言模型以实现更精确的任务执行将是未来值得研究的方向。 E. AB测试为了调查我们的基于大型语言模型的机器人在解决非大型语言模型方法未能很好处理的问题的能力我们引入了两个开放式实验如图9所示。第一个实验是一个整理房间的挑战要求整理40个定制的家居物品第二个实验是一个拼单词游戏旨在使用给定的字母集A-L拼写出最长的单词。此外我们还邀请人类参与者完成相同的任务。图 9. 两个开放式实验实验协议我们邀请了十名参与者进行AB测试实验。其中七名参与者具有机器人开发经验三名参与者有图像处理经验。我们设定了70分钟的时间限制。参与者通过与RobotGPT相同的提示了解开发要求。他们被要求通过编程完成表V中列出的10个任务。每位参与者可以自主决定尝试任务的顺序。评估指标我们通过五个指标评估性能完成状态CS对于人类参与者我们计算完成的数量对于RobotGPT则是是否完成任务代码质量CQ指的是生成代码的评分范围为0到1由Python静态代码分析工具Pylint进行分析时间使用TU表示从阅读任务要求到在模拟中实现任务所耗费的时间以秒为单位外部帮助EH指参与者是否在互联网上搜索信息对于人类测试CQ、TU和EH表示完成任务的个体数据的平均值。结果与分析表V展示了AB测试的结果。与手动编码相比RobotGPT在代码质量和时间消耗方面均表现出优势得分分别为0.762和221.8秒而人类的得分为0.70和554.9秒。只有五名参与者在70分钟内完成所有任务因此即使对于编程背景强的工程师通过手动编码生成机器人示范数据也是非常耗时的。此外RobotGPT在两个开放式任务——整理房间和拼单词游戏中明显优于人类。这主要得益于大型语言模型的知识库。在整理实验中RobotGPT将物体分为十组标签包括厨房用品、水果、零食、媒体、鞋类、办公用品、电子产品、个人护理产品、存储和饮料耗时412秒这一结果令人满意。如果物体数量从40增加到400LLM驱动机器人将展现出更明显的优势。在拼单词游戏中RobotGPT提供的结果是9个字母的单词“backfield”而人类的最佳结果是7个字母的单词“blacked”。更重要的是参与者需要在线搜索信息以完成这两个开放式任务表明LLM拥有比人类更全面的知识。 V. 结论在这封信中我们首先开发了一个有效的提示结构以增强ChatGPT对机器人环境和需要执行任务的理解。接下来我们介绍了一个名为RobotGPT的框架该框架利用ChatGPT的问题解决能力实现更稳定的任务执行。在实验中我们建立了一种衡量任务难度的指标并观察到随着任务难度的增加ChatGPT的执行成功率下降。相比之下RobotGPT的任务执行成功率达到了91.5%展现出更稳定的性能。更重要的是这一智能体已在现实环境中运行。因此利用ChatGPT作为专家训练RobotGPT是一种比直接使用ChatGPT作为任务规划者更稳定的方法。此外AB测试显示我们的基于大型语言模型的机器人在两个开放式任务中显著优于手动编码这归功于大型语言模型的大量先验知识库。总体而言机器人技术与大型语言模型的结合仍处于起步阶段。我们的工作只是初步探索我们相信未来在这一领域的研究将致力于探索如何在机器人领域合理利用ChatGPT的能力。最近研究提出了一种从约200个人类示范生成大规模数据集的方法但仅适用于18个任务。通过结合大型模型扩展人类示范的规模和任务类型将是一个有趣的方向。

查看全文

http://www.w-s-a.com/news/193392/