当前位置: 首页 > news >正文

网站建设杭州哪家好长沙市天心建设局网站

网站建设杭州哪家好,长沙市天心建设局网站,网站做301跳转的作用,备案的网站可以攻击吗获取本文论文原文PDF#xff0c;请在公众号【AI论文解读】留言#xff1a;论文解读 代码生成一直是一个充满挑战的领域。随着大型语言模型#xff08;LLM#xff09;的出现#xff0c;我们见证了在自然语言理解和生成方面的显著进步。然而#xff0c;当涉及到代码生成请在公众号【AI论文解读】留言论文解读 代码生成一直是一个充满挑战的领域。随着大型语言模型LLM的出现我们见证了在自然语言理解和生成方面的显著进步。然而当涉及到代码生成尤其是在需要正确使用API调用的任务中即使是先进的LLM也会面临所谓的“幻觉”问题即生成不切实际或错误的代码片段。 为了解决这一问题本文介绍了一种基于AI反馈的强化学习RLAIF框架旨在提高轻量级LLM参数少于1B在代码生成任务中的表现。 论文标题: Applying RLAIF for Code Generation with API-usage in Lightweight LLMs机构: Rochester Institute of Technology, Apple论文链接:https://arxiv.org/pdf/2406.20060.pdf RLAIF框架介绍 1. RLAIF的概念与发展 Reinforcement Learning from AI Feedback (RLAIF) 是一种新兴的强化学习方法它利用大型语言模型LLM生成的反馈来训练小型模型。这种方法首次由Bai等人在2022年提出并迅速在多个领域展示了其潜力例如在减少LLM输出中的伤害、增强文本摘要和数学推理方面。RLAIF通过专门的提示策略从更大的LLM例如GPT-3.5中提取AI反馈并使用这些数据训练奖励模型以改善小型LLM的表现。 2. 为何选择RLAIF替代传统RLHF 传统的强化学习与人类反馈RLHF方法通过整合人类评估来训练模型以提高模型在复杂任务上的表现。然而这种技术因高质量人类反馈的需求而成本高昂。RLAIF作为一种替代方案使用AI反馈代替人类反馈使得微调过程更具可扩展性。此外RLAIF能够在资源较少的情况下通过AI反馈显著提高代码生成质量超越简单微调基线。 3. RLAIF在轻量级LLM中的应用 在本研究中我们将RLAIF框架应用于轻量级LLM参数少于1B的代码生成任务中特别是在需要正确编写API调用的任务上。我们使用RLAIF微调了GPT-2-large780M参数不仅在API调用正确性上与先前的研究相当还在代码生成性能上有所超越。 方法详解从大模型获取反馈到训练奖励模型 1. 初始模型的微调 我们首先在Gorilla数据集上微调了一个基础模型GPT-2-large使用了监督式微调技术。这个微调的模型被称为MSFT为后续的奖励模型训练提供了基础。 2. 使用GPT-3.5生成反馈 为了获取训练奖励模型所需的数据我们没有采用人类注释员而是使用了更大的LLMGPT-3.5来生成标签。我们设计了一系列问题通过GPT-3.5对这些问题进行回答以评估生成代码的质量。这些问题是二元的是/否我们根据GPT-3.5的回答计算每个输入-输出对的得分。 3. 奖励模型的训练与应用 使用上述方法获得的得分我们标记训练数据中的输出接受或拒绝并将这些数据用于训练奖励模型Mreward。Mreward的训练目标是分类机器生成的代码是否对给定的输入指令可接受。最后我们使用近端策略优化PPO算法微调MSFT其中Mreward提供的逻辑分数作为奖励信号最终得到的微调模型称为MRL。 实验设置Gorilla数据集的应用 1. 数据集的结构与特点 Gorilla数据集由Patil等人在2023年发布主要包括三个部分HuggingFace、TensorFlow和PyTorch。本研究主要关注其中的HuggingFace部分这是三者中最大的一个包含超过925个独特的API涵盖37个不同的领域如多模态文本到图像、计算机视觉图像分类、音频文本到语音等。每个API都有十个独特的指令。数据集中的每个实例包含一个指令任务描述、领域、API调用单行代码、解释如何使用API解决任务以及完成任务的完整Python脚本。 2. 训练与评估过程 我们的实验使用了GPT-2-large模型780M参数通过监督式微调技术对其进行训练。训练过程中我们没有进行超参数搜索而是使用了固定的学习率。训练集占数据集的90%剩余的10%用于评估。我们在NVIDIA A100 40GB GPU集群上进行了实验总共花费了约60个GPU小时。 实验结果与分析 1. 代码生成质量的多指标评估 我们采用了多种指标来评估生成代码的质量包括ROUGE和Code-BLEU。ROUGE指标是ROUGE-1、ROUGE-2、ROUGE-L和ROUGE-sum的平均值。Code-BLEU则是标准BLEU、加权n-gram匹配BLEUweight、语法AST匹配Matchast和语义数据流匹配Matchdf的加权平均。此外我们还报告了生成代码的成功执行率Executability Rate这是一个衡量代码是否能在隔离环境中正确运行的指标。 2. 轻量级模型与大模型的性能比较 在我们的实验中经过RLAIF框架训练的轻量级模型GPT-2-large780M参数不仅在API调用的正确性上与Patil等人的LLaMA-7B模型相当而且在代码生成性能上还有所超越。特别是在代码的可执行率上轻量级模型比7B参数的大模型高出1.0%。这一结果表明即使是参数较少的模型通过AI反馈也能显著提高代码生成的质量。
http://www.w-s-a.com/news/334445/

相关文章:

  • 模板网站开发推广陈村大良网站建设
  • 建设工程网站单位名单广州微信网站建设效果
  • 网站开发选择框代码字节小程序开发教程
  • 杭州网站设计精选柚v米科技免费的简历制作
  • 网站域名 没有续费做外贸怎样上外国网站
  • 购物网站功能模块设计电子工程网站有哪些
  • 网站营销公司哪家好wordpress主题 破解主题
  • 做网站就是做服务中国效能建设网站
  • 唐河企业网站制作怎么样抖音seo排名软件哪个好
  • 做棋牌网站团队wordpress无限加载
  • 思创医惠网站建设微网站是手机网站吗
  • 宁波海曙网站建设市场营销管理
  • 网站被降权了怎么办做网站网页维护手机App开发
  • 营销型网站建设熊掌号tomcat 网站开发
  • 东莞网站建设seo广州 flash 网站
  • js网站评论框租房网站那些地图区域统计怎么做的
  • 企业门户网站平台建设招标采购文件长沙做网站找哪家好
  • 关于实验室建设的英文网站图文分销系统开发
  • wordpress 媒体库管理自己的网站什么做优化
  • 网站建设基本流程价格厦门seo网站推广
  • 辽宁响应式网站建设价格企业所得税率
  • 网站编辑及seo招聘上海做网站公司做网站的公司
  • 杭州四喜做网站建设么ja.wordpress.org
  • 旅游网站策划书企业公司名字大全
  • 营销型网站的标准郑州新密网站建设
  • 建设网站的公司管理公司网站设计
  • 手机网站有什么区别是什么意思不让网站开发公司进入后台
  • 网站正在建设中_敬请期待做宠物店网站
  • 个体营业执照可以做网站服务吗宣传品牌网站建设
  • 做平台是做网站和微信小程序的好别邯郸捕风科技有限公司