当前位置：首页 > news >正文

网站图片尺寸企装网

news 2025/12/17 0:30:01

网站图片尺寸,企装网,宿松县住房和城乡建设局网站,河北网络建站论文地址 https://arxiv.org/pdf/2402.01030.pdf 项目地址 https://github.com/svjack/CodeActAgent-Gradio/blob/main/README.md 代码智能体的优势选择代码智能体有以下几个关键原因#xff0c;它们相较于使用类似JSON的字典输出具有显著优势#xff1a; 1. 代码的高…论文地址 https://arxiv.org/pdf/2402.01030.pdf 项目地址 https://github.com/svjack/CodeActAgent-Gradio/blob/main/README.md 代码智能体的优势选择代码智能体有以下几个关键原因它们相较于使用类似JSON的字典输出具有显著优势 1. 代码的高效表达如同Wang等人2024所展示的那样代码在表达复杂操作序列方面极其高效。相比之下JSON虽然也能表达操作序列但其表现形式冗长且复杂。代码能够更加简洁地描述操作步骤这使得其在处理复杂任务时更加理想。 2. 简洁性代码操作比JSON简洁得多。例如需要运行4个并行的5个连续操作流时在JSON中你需要生成20个JSON块每个在其独立的步骤中而在代码中这只需1步即可完成。这种简洁性不仅减少了操作步骤还降低了错误发生的概率。 3. 成本效益平均而言使用代码操作比使用JSON减少了30%的步骤相当于生成的tokens减少了30%。由于大语言模型LLM的调用通常是智能体系统的主要成本减少30%的tokens意味着智能体系统的运行成本也减少了约30%。 4. 重用性代码允许重用常见库中的工具这进一步简化了开发和维护过程。通过调用已有的库函数或方法开发者可以更加高效地构建和扩展智能体的功能。 5. 更好的基准测试表现在基准测试中代码通常表现更好这主要有两个原因代码是一种更直观的表达操作的方式。LLM的训练数据中包含大量代码这可能使得它们在编写代码方面比编写JSON更为流畅。 6. 变量管理的便利性在代码中存储一个命名变量要容易得多。例如需要存储一个由工具生成的岩石图像以供以后使用可以轻松使用“rock_image image_generation_tool(“A picture of a rock”)”将变量存储在变量字典中的“rock_image”键下。之后LLM可以通过再次引用“rock_image”来在任何代码块中使用其值。相比之下在JSON中你需要进行复杂的操作来创建一个名称来存储这个图像以便LLM以后知道如何再次访问它。例如将图像生成工具的任何输出保存为“image_{i}.png”并相信LLM稍后会理解image_4.png是内存中之前调用工具的输出或者让LLM也输出一个“output_name”键来选择存储变量的名称从而使你的操作JSON的结构变得复杂化。 7. 可读性智能体日志的可读性大大提高。使用代码记录下来的操作步骤更容易理解和调试这对开发和维护智能体系统非常重要。如下是原文翻译摘要大型语言模型LLM代理能够执行广泛的操作例如调用工具和控制机器人在解决现实世界的挑战方面显示出巨大的潜力。通常LLM代理通过生成JSON或预定义格式的文本来产生行为这通常受限于有限的操作空间例如预定义工具的范围和有限的灵活性例如无法组合多个工具。本研究提出使用可执行的Python代码将LLM代理的操作整合到一个统一的操作空间CodeAct。通过集成Python解释器CodeAct可以执行代码操作并通过多轮交互根据新的观察结果动态调整先前的操作或发出新的操作。我们对17个LLM在APIBank和一个新创建的基准上的广泛分析显示CodeAct的表现优于广泛使用的替代方案成功率提高最多可达20%。CodeAct的出色表现激励我们构建一个开源的LLM代理该代理通过执行可解释的代码与环境交互并使用自然语言与用户协作。为此我们收集了一个包含7千次使用CodeAct的多轮交互的指令调优数据集CodeActInstruct。我们表明它可以与现有数据一起使用以改进面向代理的任务中的模型而不会损害其通用能力。CodeActAgent通过在Llama2和Mistral上的微调集成了Python解释器并专门用于使用现有库和自主调试来执行复杂任务例如模型训练。介绍大型语言模型LLMs已经成为自然语言处理NLP领域的关键突破。当它们与允许访问API的动作模块结合时其动作空间超越了传统的文本处理范畴使得LLMs具备诸如工具调用和内存管理的能力Mialon等2023Schick等2023并能够涉足如机器人控制Ahn等2022Huang等2023Ma等2023和进行科学实验Bran等2023等现实世界任务。我们探讨如何有效扩展LLM代理的动作空间以解决复杂的现实世界问题现有许多研究已经通过使用文本Yao等2022bPark等2023等或JSONQin等2023bChase2022等来生成动作例如图1左上角的工具使用。然而这两种方法通常面临受限的动作空间动作通常为特定任务量身定制和有限的灵活性例如无法在单个动作中组合多个工具。作为一种替代方法一些研究Liang等2022Singh等2023Wang等2023a展示了使用LLMs生成代码来控制机器人或游戏角色的潜力。然而这些方法通常依赖于预先指定的控制原语和手工设计的提示更重要的是它们难以根据新的环境观察和反馈动态调整或发出动作。本研究提出了CodeAct一个通用框架允许LLMs生成可执行的Python代码作为动作图1右上角。CodeAct旨在处理各种应用并具备独特的优势集成了Python解释器CodeAct可以执行代码动作并根据多轮交互中接收到的观察结果例如代码执行结果动态调整先前的动作或发出新动作。代码动作允许LLM利用现有的软件包。CodeAct可以使用现成的Python包来扩展动作空间而不是手工制作的特定任务工具Yuan等2023Shen等2023。它还允许LLM使用大多数软件中实施的自动反馈例如错误消息通过自我调试其生成的代码来改进任务解决Chen等2023bWang等2023d。代码数据在今天的LLM预训练中被广泛使用Yang等2024b。这些模型已经熟悉结构化的编程语言允许以较低成本采用CodeAct。与预定义格式的JSON和文本相比代码本质上支持控制和数据流允许将中间结果存储为变量以供重用并通过一段代码组合多个工具来执行复杂的逻辑操作例如if语句for循环从而通过利用其预训练的编程知识解锁LLMs解决复杂任务的潜力。在图1中使用CodeAct的LLM右上角可以通过for循环即控制流功能对所有输入应用相同的工具序列例如使用数据流功能将一个工具的输出作为输入传递给另一个工具一次性完成动作而文本或JSON必须对每个输入采取动作左上角。我们对17个LLM包括开源和专有的广泛实验证实了上述CodeAct的优势3和4。为了展示优势3我们的第一个实验第2.2节比较了CodeAct与基线模型在涉及原子工具使用即每次动作仅使用一个工具的基本任务上的表现剔除了CodeAct提供的控制和数据流优势。结果表明对于大多数LLMCodeAct的表现与基线相当或更好。在我们的第二个实验优势4中CodeAct在复杂任务中的性能提升更加显著。我们策划了一个包含82个人工策划任务的新基准通常需要在多轮交互中多次调用多个工具M3ToolEval第2.3节。这个基准中的问题通常需要复杂的协调和多工具组合。凭借控制和数据流的优势CodeAct在解决问题的成功率上比基线提高了多达20%的绝对值同时所需动作减少了多达30%。随着LLMs能力的提升这些性能提升更加明显图1下方。 CodeAct的出色表现激励我们构建一个能够通过CodeAct有效行动的开源LLM代理并通过自然语言与人类协作。为此我们收集了一个包含7千个高质量多轮交互轨迹的指令调优数据集CodeActInstruct第3.1节。CodeActInstruct受通用代理框架包括代理、用户和环境的启发图2并专注于代理与计算机信息检索、软件包使用、外部内存和物理世界机器人规划之间的交互。在CodeActInstruct上我们进行了仔细的数据选择以促进从多轮交互中改进的能力例如自我调试。我们表明CodeActInstruct可以与常用的指令调优数据一起使用在不损害其通用能力例如基于知识的问答、编程、指令执行的情况下提升模型在代理任务中的表现第3.2节。我们的模型CodeActAgent通过从LLaMA-2Touvron等2023和Mistral-7BJiang等2023微调不仅在使用CodeAct时在领域外代理任务上有所改进而且在使用预定义格式的文本动作时也有提升第3.2节。 CodeAct还可以从多轮交互和现有软件中受益优势1和2第2.4节。如图3所示设计用于无缝集成Python的CodeActAgent可以使用现有的Python包执行复杂任务例如模型训练、数据可视化。环境中的错误信息进一步使其能够通过多轮交互中的自我调试自主纠正错误。由于LLM在预训练期间广泛的编程知识这些都无需上下文示范即可实现减少了适应CodeActAgent到不同任务的人力成本。 CodeAct使LLMs成为更好的代理在本节中我们首先描述了CodeAct框架第2.1节并提供了支持选择CodeAct的实证证据。由于Python的流行性在TIOBE指数中排名第一2024年和众多的开源包我们选择Python作为CodeAct的编程语言。我们旨在使用17个现成的LLM来回答几个研究问题RQs。在第2.2节中我们探讨RQ1LLMs对代码的熟悉程度由于大量代码预训练数据是否为CodeAct相较于文本和JSON带来优势在第2.3节中我们讨论RQ2在复杂问题中CodeAct是否受益于Python固有的控制和数据流特性最后作为一个额外的好处我们在第2.4节和图3中讨论了使用CodeAct如何通过启用多轮交互并允许其访问现有软件进一步增强LLM代理。 2.1 什么是CodeAct 在图2中我们首先介绍了一个通用的多轮交互框架以便LLM代理在现实世界中的使用该框架考虑了三种角色Yang等2024c代理、用户和环境。我们将交互定义为代理与外部实体用户或环境之间的信息交换。在每轮交互中代理从用户例如自然语言指令或环境例如代码执行结果接收观察输入可以选择通过思维链Wei等2022规划其动作并向用户以自然语言或环境发出动作输出。CodeAct使用Python代码来整合所有代理-环境交互的动作。在CodeAct中发给环境的每个动作都是一段Python代码代理将接收到代码执行的输出例如结果、错误作为观察。我们在附录E中包含了一个CodeAct的示例提示。 2.2 CodeAct显示出作为强大工具使用框架的潜力在本节中我们进行了一项控制实验以了解哪种格式文本、JSON、CodeAct更可能引导LLM生成正确的原子工具调用。该实验的性能反映了LLM对相应格式的熟悉程度。我们假设使用CodeAct调用工具对于模型来说是一种更自然的方式因为它们在训练过程中通常广泛接触代码数据。实验设置我们重新利用API-BankLi等2023并测试LLMs的API调用性能比较CodeAct、JSON和文本动作。对于每个评估实例我们指示LLM生成一个Python函数调用、JSON对象或预定义格式的文本表达的原子工具调用。具体示例见表A.6。我们使用API-Bank的一级指令和提供的工具集。为了评估API调用我们遵循其正确性指标将模型生成的API执行输出与真实API输出进行匹配。结果我们在表2中展示了结果。对于大多数LLM即使在控制和数据流优势被剔除的原子动作最简单的工具使用场景中CodeAct也实现了相当或更好的性能。与闭源LLM相比CodeAct在开源模型中的改进更加显著。此外代码数据通常比专用的JSON或文本工具调用格式更易于用于微调开源LLM。尽管对于开源模型JSON通常表现较差但在闭源LLM中表现良好表明这些闭源模型可能已经进行了针对性微调以增强其JSON能力。这些结果表明对于提高工具使用能力优化CodeAct是比替代方案更好的路径因为开源LLM由于在预训练期间广泛接触代码数据已经展现了良好的初始CodeAct能力。 2.3 CodeAct通过更少的交互完成更多工作在本节中我们研究LLM代理是否能够在需要复杂工具使用模式的问题中受益于代码的控制和数据流特性。 M3ToolEval 如表A.7所示据我们所知现有的工具使用基准中没有包含需要多工具组合同时支持不同动作格式评估的复杂任务。因此我们策划了一个名为M3ToolEval的基准以填补这一空白评估LLMs在解决通常需要多轮交互中多次调用多工具的复杂任务中的能力。它包含82个人工策划的实例涵盖任务包括网页浏览、金融、旅行行程规划、科学和信息处理。每个领域配有一组独特的手工制作工具。我们有意保持提示简单示例见附录F并避免提供任何示范以测试LLM在零次提示情况下使用工具的能力类似于一个没有少次提示知识的新手用户会如何使用模型。实验设置我们允许模型生成能够实现控制和数据流例如if语句for循环的功能性Python代码。我们遵循表A.6中描述的JSON和文本的动作格式。在每轮中模型可以发出一个动作或提出一个答案通过与真实解决方案的精确匹配进行验证。当达到最多10轮交互或提交正确解决方案时交互将终止类似于Wang等2023e。评估指标我们通过计算模型提出的答案与真实解决方案匹配的百分比来衡量成功率。我们还包括平均轮数指标所有评估实例的平均轮数。 M3ToolEval上的量化结果我们在表3中包含了完整的结果并在图1中展示了部分结果用于可视化。CodeAct通常具有更高的任务成功率在17个评估LLM中有12个与第2.2节中的趋势类似。此外使用CodeAct需要更少的平均轮数在17个评估LLM中有12个。例如最佳模型gpt-4-1106-preview相比于次佳动作格式文本实现了20.7%的绝对提升同时平均减少了2.1轮交互。然而在CodeAct的绝对性能方面开源和闭源LLM之间仍存在显著差距最佳开源模型实现了13.4%而最佳闭源模型gpt-4-1106-preview实现了74.4%。这可能是由于开源模型的任务解决能力较弱且在没有示范的情况下无法遵循复杂指令表明需要紧急改进开源LLM以在零次提示设置下进行实际的现实世界任务。 2.4 CodeAct从多轮交互和现有软件包中受益在图3中我们展示了一个LLM代理如何与Python集成即我们在第3.2节训练的CodeActAgent并使用现有软件在多轮交互中执行复杂任务。由于在预训练期间广泛学习Python知识LLM代理可以自动导入正确的Python库来解决任务而无需用户提供工具或示范。如图3所示CodeActAgent可以使用Pandas下载和处理表格数据用Scikit-Learn进行机器学习训练-测试数据拆分和回归模型训练以及用Matplotlib进行数据可视化。此外使用交互式Python解释器进行代码执行可以自动生成错误消息帮助LLM代理在多轮交互中“自我调试”其动作并最终正确完成用户的请求。 3. 提升开源LLM代理的CodeAct能力 CodeAct所取得的令人鼓舞的结果促使我们构建一个能够通过CodeAct与环境交互并使用语言与人类沟通的开源LLM代理。为了提升开源LLM的CodeAct能力在第3.1节中我们介绍了CodeActInstruct一个包含代理-环境交互轨迹的指令微调数据集。我们在第3.1节中讨论了数据选择程序以促进从交互行为中改进。此外我们展示了CodeAct可以与现有的代理-用户对话数据一起使用第3.1节以平衡生成的LLM的对话能力。我们的模型CodeActAgent在LLaMA-2Touvron等2023和Mistral-7BJiang等2023的基础上通过混合CodeActInstruct和通用对话数据进行微调提升了CodeAct性能同时不影响LLM在多样任务上的整体表现第3.2节。 3.1 CodeActInstruct代理-环境交互我们考虑了代理-环境交互中的四个主要用例并重新利用五个不同领域的现有数据集生成轨迹信息检索我们使用HotpotQAYang等2018的训练子集生成信息检索轨迹LLM使用维基百科搜索API作为Python函数提供搜索信息来回答问题。软件包工具使用我们使用APPSHendrycks等2021a中的代码生成问题训练集和MATHHendrycks等2021b中的数学问题。代码生成任务已经涉及导入包和/或通过定义新的Python函数创建新工具。对于MATH我们提供导入Python包例如sympy用于符号数学解决问题的上下文示例。外部内存我们重新利用WikiTableQuestionPasupat Liang2015的训练子集并将其修改为需要访问外部内存的两种表格推理任务1基于SQL的任务需要LLM通过sqlite3包与SQL数据库交互通过SQL执行回答问题2基于Pandas的任务需要模型与Pandas表格交互以执行数据操作例如选择过滤。指令示例见附录G.3.1。机器人规划我们使用ALFWorldShridhar等2020一个仅文本的具身环境模拟器生成使用机器人控制API重新作为Python函数完成家务任务的轨迹。遵循MINTWang等2023e我们提供一个上下文示例鼓励使用for循环和if语句代码块来自动化重复操作例如通过访问不同位置搜索物品。数据下采样我们通过保留最具挑战性的实例来下采样每个数据集旨在使轨迹生成更高效和成本效益更高。此外这还有助于去除现有LLM已经能解决的简单实例。过滤后的数据集统计见表A.9。有关下采样过程的详细信息请参阅附录G.1。数据重新利用以实现多轮交互一些数据集APPSMATHWikiTableQuestions最初是单轮问题每个指令期望一个解决方案而在现实的代理使用情况下我们通常需要多轮交互来完成每个任务图1顶部。遵循MINTWang等2023e我们通过允许LLM在提交一个解决方案进行评估之前与环境进行多轮交互将单轮问题重新利用为多轮问题。具体对于代码生成问题我们提供一个上下文示例以指导LLM在提交解决方案之前在提供的测试用例上测试其解决方案。将使用原始数据的指标评估提交的解决方案以确定其正确性。示例见附录G.3。轨迹生成我们使用MINT的评估框架Wang等2023e为上述数据集生成交互轨迹并确定每个轨迹的正确性。我们在下采样数据上运行OpenAI的gpt-3.5-turbo-0613Anthropic的claude-1-instant和claude-2代码生成除外因为代码生成需要更长的上下文我们使用GPT-3.5的长上下文版本gpt-3.5-turbo-0613-16k。在这些模型都无法解决的一部分问题上我们使用gpt-4-0613生成轨迹。增强代理从交互中改进的能力我们从CodeActInstruct生成的所有轨迹中选择一个高质量子集促进代理基于先前观察改进下一个动作的能力例如从代码执行错误消息中自我调试图2中的计划能力。为此我们选择性保留了那些模型最初遇到错误但在后续交互中纠正这些错误的轨迹。对于这些实例LLM通常在初始错误后进行自我反思从而主动提高其未来动作。其他筛选细节在附录G.2中讨论。我们保留了gpt-4-0613生成的411个轨迹以及gpt-3.5和claude生成的6728个轨迹。最终数据集CodeActInstruct的统计见表4。与先前工作的比较与主要关注使用文本作为动作的先前工作AgentInstructZeng等2023和FireActChen等2023a相比CodeActInstruct使得模型在实际应用中更具实用性因为使用CodeAct的模型可以直接与Python解释器和开源工具包交互图3减少了解析动作和创建工具的开发工作。CodeActInstruct按照通用代理框架系统地构建图2涵盖了多样的领域例如相比于仅考虑QA任务和搜索API的FireAct包含优质数据例如促进代理的自我调试能力且规模更大相比AgentInstruct和FireAct分别多3.8倍和3.5倍的数据轨迹以及5倍和19倍的tokens见表4。正如我们在表5中经验性展示的那样CodeActInstruct生成的模型相同主干相比AgentInstruct和FireAct分别实现了24%和119%的相对提升。 CodeActInstruct可以与现有的代理-用户对话数据一起使用我们使用一个集中于单轮思维链CoT推理的OpenOrca子集Lian等2023两个包含人类和LLM之间多轮对话的ShareGPT匿名2023OpenChat2023数据源以及一个集中于多轮对话推理的CapyBaraLDJnr2023。统计和下采样细节见表4和附录C。 3.2 CodeActAgent 我们在混合了CodeActInstruct和通用对话数据表4的基础上对Llama-2 7BTouvron等2023和Mistral 7BJiang等2023进行微调获得了CodeActAgent。训练设置我们对Llama-2使用长度为4096 tokens的序列对Mistral使用长度为16384 tokens的序列进行全参数监督微调。更多细节请参阅附录D。评估设置我们使用MINTWang等2023e评估LLMs在各种代理任务中使用CodeAct的表现。CodeActAgent的一些训练领域与MINT的评估重叠即MINT包括ALFWorld和MATH因此我们分别报告MINT在域内和域外的性能。除非另有说明我们在交互轮数k5的情况下测量MINT任务的成功率。我们还使用MiniWob计算机任务Kim等2023和ScienceWorld基于文本的小学科学课程模拟器Wang等2022a中的文本动作评估域外代理任务以测试CodeActAgent是否能适应不同的动作格式。最后我们包括一组通用LLM评估任务来评估总体能力用于知识问答的MMLUHendrycks等2020用于单轮代码生成的HumanEvalChen等2021用于单轮无工具数学推理的GSM8KCobbe等2021和用于指令遵循的MTBenchZheng等2023。 CodeActAgent在CodeAct任务中表现优异如表5所示CodeActAgent两种变体在MINT的域内和域外子集上都优于所有评估的开源LLM。在M3ToolEval中我们发现CodeActAgentMistral优于类似规模的开源LLM7B和13B甚至达到了70B模型的相似性能表3。令人惊讶的是Llama-2变体没有观察到改进。我们在附录H中讨论了潜在原因。 CodeActAgent能够适应文本动作在域外文本动作评估中CodeActAgentLLaMA2, 7B尽管从未针对文本动作进行优化却达到了与明确针对文本动作调整的AgentLM-7BZeng等2023相当的性能。 CodeActAgent在通用LLM任务上保持或提升了性能在表5中我们发现CodeActAgent两种变体在我们测试的通用LLM任务上表现更佳除了CodeActAgentMistral, 7B在MMLU上略有下降。消融研究表A.8展示了消融实验以确定CodeActInstruct和通用对话的重要性。CodeActInstruct和通用对话都对代理任务有贡献而通用对话对于保持通用任务的性能至关重要。 4. 相关工作 4.1 LLM代理中的动作模块如(Wang等2023b)所述基于LLM的自主代理通常围绕四个组件构建定制化配置文件(Park等2023Qian等2023)、长期记忆能力(Zhu等2023Fischer2023)、推理和规划算法(Wei等2022Chen等2023d)以及最关键的动作模块。动作模块是促使LLM代理能够有效与外部实体包括人类(Lee等2022)和工具(Qin等2023a)在环境中(Wang等2023eYang等2024a)交互的关键组件。在本研究中我们解决了为LLM代理标准化动作空间这一关键问题。我们在附录A中进一步讨论了CodeAct与使用代码生成进行问题解决的相关研究之间的差异。我们注意到一项并行研究TaskWeaver(Qiao等2023)同样支持使用代码。我们在附录B中讨论了其主要区别。 4.2 提升LLM代理提升LLM代理的两种主要方法是提示工程和指令微调具体详见(Wang等2023b)的综述。对于提示工程(Liu等2023a)已经引入了许多策略以改进思维链推理(Wei等2022)包括基于自一致性的推理(Wang等2022bChen等2023d)和基于树的方法(Yao等2023a)。此外可以通过战略性地提示LLM来反思之前的计划(Yao等2023bWang等2023fZhang等2023)使其通过试错法改进初始动作。与提示工程相比指令微调本质上增强了LLM的能力(Chung等2022)特别是在其代理能力方面(Zeng等2023Chen等2023a)。为了有效训练人类注释者可以为特定的代理任务策划专家示范例如网页浏览(Yao等2022aNakano等2021)。为了最小化人类注释的工作量先前的研究使用更强大的LLM创建合成数据集将代理能力蒸馏到本地模型中专注于工具使用(Qin等2023b)、交互(Chen等2023c)和社交技能(Liu等2023b)。CodeActInstruct与后者方法一致使用更强大的LLM创建数据集。 5. 结论本文介绍了CodeAct使用可执行的Python代码作为LLM代理的动作这在复杂场景中相较于使用文本或JSON动作具有优势。我们收集了专注于CodeAct的多轮交互轨迹CodeActInstruct用于指令微调并训练了CodeActAgent。该代理专为与Python的无缝集成而设计能够利用现有的Python包执行复杂任务例如模型训练并通过自我调试自动纠正错误。致谢我们感谢匿名评审员的建议和意见。本研究基于美国DARPA ECOLE项目No. HR00112390060、DARPA ITM项目No. FA8650-23-C-7316和KAIROS项目No. FA8750-19-2-1004的支持。本文所包含的观点和结论是作者的观点和结论不应被解释为必然代表DARPA或美国政府的官方政策无论是明示还是默示。尽管有任何版权注释美国政府有权为政府目的复制和分发重印件。本研究使用了国家超级计算应用中心的Delta系统通过高级网络基础设施协调生态系统服务与支持ACCESSBoerner等2023项目的分配CIS230256该项目由国家科学基金会资助资助号#2138259, #2138286, #2138307, #2137603, 和#2138296。影响声明本文展示的研究目标是推进基于LLM的自主代理能够通过自然语言与人类沟通并通过在环境中执行任务来协助人类用户。在本节中我们讨论了与我们的工作及其目标相关的潜在社会影响、局限性和未来工作。 CodeActAgent是一个自主代理的初始原型仍然存在一些实际局限性。例如它可能会受到LLM中常见的幻觉影响例如想象变量的内容而不实际打印出来这表明需要后续对齐Ouyang等2022以进一步改进。尽管是一个原型CodeActAgent已经展示了有限的自我改进能力例如通过自我调试错误消息来改进其动作和与环境交互的能力。未来的工作可能会基于CodeActAgent通过让它们在特定环境中进行广泛的交互并迭代地增强其自我改进能力从过去的错误中学习来开发更好的代理。这样的算法产生的更强大的代理可能对解决广泛的现实世界问题例如定理证明药物发现有益。如(Eloundou等2023)中广泛讨论的那样一个完全自主的代理可能会改变当前的劳动力市场格局并影响现有工人的工作。此外由于CodeAct直接授予代理在沙盒环境中自由执行代码的权限在最坏的情况下例如在科幻电影中这样的代理可能突破沙盒限制通过网络攻击对世界造成伤害这强调了未来工作需要设计更好的安全机制来保护自主代理Tang等2024。

查看全文

http://www.w-s-a.com/news/55936/