专业海外网站推广,网站首页轮播图怎么换,crm客户管理系统简介,网站怎么做三个页面原文首发于博客文章ChatGPT发展概览 ChatGPT 是OpenAI开发的人工智能聊天机器人程序#xff0c;于2022年11月推出。该程序使用基于 GPT-3.5、GPT-4 架构的大语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互#xff0c;而除了可以用人类自然对话方式来交互#xff0c… 原文首发于博客文章ChatGPT发展概览 ChatGPT 是OpenAI开发的人工智能聊天机器人程序于2022年11月推出。该程序使用基于 GPT-3.5、GPT-4 架构的大语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互而除了可以用人类自然对话方式来交互还可以用于甚为复杂的语言工作包括自动生成文本、自动问答、自动摘要等多种任务。
ChatGPT的诞生
演进过程 在 2020 年 7 月OpenAI 发布了模型名称为的 davinci 的初代 GPT-3 在 2021 年 7 月Codex 的论文发布其中初始的 Codex 是根据 120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的code-cushman-001 在 2022 年 3 月OpenAI 发布了指令微调 (instruction tuning) 的论文其监督微调 (supervised instruction tuning) 的部分对应了davinci-instruct-beta和text-davinci-001 在 2022 年 4 月至 7 月的OpenAI 开始对code-davinci-002模型进行 Beta 测试也称其为 Codex text-davinci-002、text-davinci-003和ChatGPT 都是从code-davinci-002进行指令微调得到的。详细信息请参阅OpenAI的模型索引文档 2022 年 5-6 月发布的text-davinci-002是一个基于code-davinci-002的有监督指令微调 (supervised instruction tuned) 模型。在text-davinci-002上面进行指令微调很可能降低了模型的上下文学习能力但是增强了模型的零样本能力。 text-davinci-003和 ChatGPT它们都在 2022 年 11 月发布是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 恢复了但仍然比code-davinci-002差一些在text-davinci-002 中丢失的部分上下文学习能力并进一步改进了零样本能力得益于RLHF。另一方面ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。 总结
语言生成能力 基础世界知识 上下文学习都是来自于预训练davinci存储大量知识的能力来自 1750 亿的参数量遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量davinci-instruct-beta执行复杂推理的能力很可能来自于代码训练code-davinci-002生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说 如果是监督学习版得到的模型是text-davinci-002如果是强化学习版 (RLHF) 得到的模型是text-davinci-003无论是有监督还是 RLHF 模型在很多任务的性能都无法超过 code-davinci-002 这种因为对齐而造成性能衰退的现象叫做对齐税。 对话能力也来自于 RLHFChatGPT具体来说它牺牲了上下文学习的能力来换取 建模对话历史增加对话信息量拒绝模型知识范围之外的问题
训练
训练有四个主要阶段预训练、有监督微调、奖励建模、强化学习
Pretraining 预训练
数据收集CommonCrawlC4也是common crawl然后还有一些高质量的数据集例如GitHub、维基百科、书籍、ArXiv论文存档、StackExchange问答网站等这些都混合在一起然后根据给定的比例进行采样。标记化tokenization标记化是文本片段和标记与整数之间的一种无损转换是将互联网上抓取的原始文本翻译成整数序列。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AoyVnVqh-1687332879486)(null)]训练过程可以查观看这个视频进行了解
Supervised Finetuning 监督微调
假设已经有了一个非常聪明的学生即GPT-3模型他已经学会了很多知识并且可以在各种不同的主题上写文章。但是想让他专注于某个特定的主题并且写出更好的文章。这就需要使用监督微调技术来让他集中精力并提高他在这个特定主题上的表现。可以使用一个新的数据集来让这个学生熟悉这个领域的特定要求。例如为他提供一些示例文章这些文章符合这个领域的要求并让他通过学习这些文章来了解这个领域的特点和要求。这就像在学习一门新的科目时我们需要先了解这门科目的基本概念和原理然后通过实践来巩固这些知识。一旦这位学生掌握了这个领域的基础知识就可以开始进行实践并进行监督微调。可以让他写一些文章并根据这些文章的质量来指导他的学习和进一步的改进。这就像在学习一门新的科目时需要不断地进行实践和练习以巩固我们的知识并提高我们的技能水平。最终通过不断的实践和练习这位学生将能够在这个特定的领域中表现出色并写出符合要求的文章。
Reward Modeling 奖励建模
将奖励建模类比为让聪明的学生即GPT-3模型学习一门新的技能例如学习打篮球。在学习打篮球的过程中可以将得分作为奖励信号以评估学生的表现。首先需要告诉学生如何打篮球例如传球、投篮、防守等基本技能。这就像在奖励建模中我们需要提供一些示例以便模型可以了解任务的要求。然后可以让学生在训练场上进行练习并根据他们的表现来给予奖励。例如如果学生成功投篮得分我们可以给予他们一定的奖励分数。这就像在奖励建模中可以根据模型的表现来生成奖励信号。如果模型成功完成任务例如正确地回答问题或生成准确的文本可以给予它一定的奖励分数。通过不断的练习和奖励学生将学会如何打篮球并且在比赛中表现出色。同样地通过奖励建模技术我们可以训练GPT-3模型在特定任务中表现出色并生成符合要求的文本。通过最大化奖励信号模型可以学习如何有效地完成任务并不断改进自己的表现。
Reinforcement Learning 强化学习
奖励建模的例子中将奖励信号定义为每次得分的分数。如果聪明的学生成功地将篮球投入篮筐给予它一定数量的分数如果它没有得分那么不给予它分数。在奖励建模中可以使用这些分数作为奖励信号来训练模型。我们的目标是最大化总得分因为总得分是我们想要优化的目标函数。强化学习中需要定义状态空间、行动空间和奖励函数以让聪明的学生了解任务的要求。状态空间可以包括学生的位置、篮球的位置和篮筐的位置等信息行动空间可以包括传球、投篮、防守等动作奖励函数可以根据得分、失误、防守成功等情况来定义。然后让聪明的学生与环境交互并根据当前状态和策略采取行动并从环境中获得奖励或惩罚信号聪明的学生可以不断更新策略以最大化长期奖励即总得分。奖励建模使用奖励信号来指导模型的优化方向而强化学习使用奖励信号来指导模型的行动选择。
特点
作为辅助工具并与人工监督结合起来在不注重可靠性和安全性的应用程序中使用可以编写和调试计算机程序具备创作音乐、电视剧、童话故事和学生论文的能力ChatGPT 能够记住与用户之前的对话内容和给它的提示可以回答测试问题在某些测试情境下水平甚至高于普通人类测试者ChatGPT 输入内容会由审核API过滤以减少生成冒犯言论
局限
人工智能幻觉 有时会写出看似合理但不正确或荒谬的答案古德哈特定律奖励模型围绕人类监督而设计可能导致过度优化从而影响性能意识形态偏见研究表明ChatGPT对两个投票建议应用程序的政治声明表明立场时表现出亲环境主义。