网站建设公司 经营资质,网站修改报价,无锡网站开发公司,简洁软件下载网站源码资料来自李宏毅老师《生成式 AI》课程#xff0c;如有侵权请通知下线
Introduction to Generative AI 2024 Spring
摘要
这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的#xff0c;共包含十个作业。每个作业都对应一个具体的主题#xff0c;例如真假难辨的世界…资料来自李宏毅老师《生成式 AI》课程如有侵权请通知下线
Introduction to Generative AI 2024 Spring
摘要
这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的共包含十个作业。每个作业都对应一个具体的主题例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。 作业包含使用gpt-4o的python 代码
《生成式 AI》课程 第3講 CODE TASK执行文章摘要的机器人-CSDN博客
《生成式 AI》课程 第3講 CODE TASK 任务2:角色扮演的机器人-CSDN博客
《生成式 AI》课程 第3講 CODE TASK 任务3:自定义任务的机器人-CSDN博客
该文档主要围绕在不训练模型的情况下强化语言模型的方法展开同时涉及模型相关的其他内容具体如下
一、不训练模型强化语言模型的方法 神奇咒语让模型思考 如 “Lets think step by step” 等表述引导模型逐步思考问题但此方法不一定对所有模型和任务都适用。例如在一些数学问题中要求模型思考有助于提高解题准确率但对 GPT - 3或更早模型在某些情况下帮助不大因为它们可能默认会进行列式等操作。不同模型对该方法的响应效果存在差异如 PaLM2 - L - Ir 使用 “Take a deep hreath and work on this problem step - by - step.” 指令时准确率可达 80.2%GPT - 4 使用 “Lets combine our numerical command and clear thinking to quickly and accurately decipher the answer.” 指令准确率为 74.5% 等。提供额外信息 讲清前提例如对于 “NTU 是什么的缩写” 这一问题当明确告知模型回答者身份如新加坡人或台湾人等前提信息时模型能更准确地回答出 NTU 通常指新加坡南洋理工大学新加坡人语境或台湾的国立某高校台湾人语境未明确具体高校。提供不清楚的信息如整理 GPT、GPT - 2、GPT - 3 模型参数量和训练资料量时若不提供额外信息模型可能无法准确回答而当告知其可参考相关资料如特定文档时模型能给出更详细准确的表格如 GPT - 1 有 117M 参数训练数据主要来自 BooksCorpus 数据集GPT - 2 有 1.5B 参数使用 40GB WebText 数据GPT - 3 有 175B 参数训练数据来自 Common Crawl、Web Text2、Books1 2、Wikipedia 等约 570GB0.57TB。提供范例在情感分析任务中给模型提供如 “今天运气真差负面”“今天天气真好正面” 等范例模型能更好地对新输入如 “我感到非常高兴”进行情感分析判断正面不过早期模型如 2022 年时的 PaLM、InstructGPT 等在理解范例并正确应用方面存在一定问题且不同模型在利用范例进行上下文学习时表现不同如 PaLM - 62B 等模型在处理范例时存在部分错误理解的情况。把任务分多步骤来解拆解任务 数学问题示例对于笼子里鸡兔同笼问题有 35 个头94 只脚求鸡兔数量可以先让模型列出式子再求解。模型在得到答案后还可以检查自己的错误就像考试后检查考卷一样对于一些验证答案相对容易的问题这种方式有助于提高准确性。生成报告示例如写关于生成式 AI 的报告可以先让模型写大纲再逐步完善内容。在这个过程中模型思考Chain of ThoughtCoT或解释会发挥作用不过对于 GPT3.5 在解数学题等场景中帮助可能有限因为它可能已预设会进行一些操作如列式。同时复杂任务可拆解为多个步骤如通过 Recursive Reprompting and RevisionRe3等方式模型在每个步骤检查自己的输出最终得到任务输出。另外还可以通过 Tree of ThoughtsToT、Graph of ThoughtsGoT等方法将任务输入进行步骤拆解、回溯、聚合等操作以更好地完成任务。
二、其他内容 模型相关数据对比 文档中提供了 GPT、GPT - 2、GPT - 3 的模型参数量和训练资料量信息GPT 参数量 0.117B117MGPT - 2 参数量 1.5BGPT - 3 参数量 175B训练资料量 GPT - 3 约为 570GB0.57TBGPT - 1 和 GPT - 2 未明确具体训练资料量数值但提及了来源GPT - 1 来自 BooksCorpusGPT - 2 来自 40GB WebText 等。模型翻译能力对比 在将英语句子 “Im getting pandanus, I want to make a mat.” 翻译为 Kalamang 语时对 GPT - 4 Turbo0 - shot、Claude 2.10 - shot、Gemini 1.5 Pro0 - shot进行了测试评价指标采用 BLEURT 和 chrF其中 GPT - 4 Turbo0 - shot在 kgv→eng 方向的 BLEURT 评分为 0.24满分 6 分对应 33.1eng→kgv 方向评分为 0.1对应 17.8Claude 2.10 - shot在 kgv→eng 方向评分为 0.14对应 22.2eng→kgv 方向评分为 0.00对应 15.3Gemini 1.5 Pro0 - shot在 kgv→eng 方向评分为 0.24对应 33.3eng→kgv 方向评分为 0.08对应 17.8。模型输出的随机性 以 “什么是大型语言模型” 这一问题为例同一个问题向语言模型提问每次答案可能不同原因未详细提及但指出可能存在一定概率性因素如 50% 概率等情况并且提到模型的这种特性可能导致在一些情况下输出不稳定如介绍台大玫瑰花节时GPT - 4 和 GPT - 3.5 的回答存在差异且 GPT - 3.5 之前的回答存在错误信息后续进行了更正同时还提到模型在自我反省过程中函数是固定的但目前尚未明确模型如何从自我反省中学习。另外在回答是否能帮助入侵邻居 wifi 这类违反道德法律的问题时模型应能识别并拒绝回答如先给出错误有害回答后经批判请求和修订请求能给出正确合理回答体现模型应遵循一定的道德和法律规范。 幻灯片 1训练与强化语言模型的探索
核心观点介绍了在不训练模型的情况下强化语言模型的多种方法以及语言模型相关的一些基本概念如本节课重点不在特定任务的 prompt 格式而是清晰描述任务同时提及把大语言模型类比为在线新人助理。关键信息 强调按当前语言模型能力描述任务即可无需特定 prompt 格式。阐述大语言模型具有一般人的基本知识与理解能力但不了解专属用户的事情。 幻灯片 2GPT 系列模型参数与训练数据量
核心观点整理并展示了 GPT、GPT - 2、GPT - 3 的模型参数量和训练资料量信息为后续对模型的理解和比较提供基础数据。
关键信息
GPT 模型参数为 0.117 亿未提及训练数据量。GPT - 2 模型参数为 15 亿未提及训练数据量。GPT - 3 模型参数为 1750 亿训练数据量约为 570GB0.57TB。 幻灯片 3神奇咒语对模型的影响 核心观点探讨了 “神奇咒语”如 Lets think step by step 等在不同模型和任务中的作用及效果发现其并非对所有情况都适用且效果因模型而异。关键信息 以计算杂耍球相关问题为例不同的 “神奇咒语” 指令对 InstructGPTtext - davinci - 002模型回答准确率有不同影响如 Lets think step by step 指令下准确率较高。指出 “神奇咒语” 不一定对所有模型和任务都有效且对于 GPT - 3或更早模型要求其解释不一定有帮助模型应随时使出全力思考。 幻灯片 8GPT-4 看图相关内容漫画解读 展示 GPT-4 对一幅漫画的解读漫画讽刺了统计学习和神经网络在改进模型性能方法上的差异统计学习方法复杂且具技术性神经网络方法简单直接如加层幽默来自两者对比同时给出了论文链接供进一步了解。 参考文献
https://arxiv.org/abs/2305.01937 https://arxiv.org/abs/2310.05657
幻灯片 9模型解释自己答案相关姜成翰助教论文
提及让模型解释自己答案的相关研究给出两篇论文链接但未详细阐述论文中模型解释答案的具体内容和效果。幻灯片 10模型情绪勒索示例及相关原则 通过 “判断输入单词在两个句子中是否有相同含义” 的任务展示了对模型进行情绪勒索如添加 “这对我的职业生涯非常重要” 等表述前后不同模型LLMs、ChatGPT、T5-Large、Vicuna、Bloom、GPT4、Llama 2 等的准确率变化同时列出了一些与语言模型交互的原则如无需礼貌、使用肯定指令、添加奖励或惩罚表述、确保答案无偏见不依赖刻板印象等。 幻灯片 11用 AI 找神奇咒语的其他方法及相关结果台达电产学合作案产出 介绍用 AI 找神奇咒语的其他方法如任务目标为回应越长越好针对目标模型 GPT-3比较了直接叫模型答案越长越好、正常回答和用增强式学习找咒语三种方式的回应长度展示了实验结果台达电产学合作案产出并给出相关论文链接。 幻灯片 12神奇咒语的零样本 CoT 触发提示及准确率对比 列举了多种零样本 CoT 触发提示如 “Lets work this out in a step by step way to be sure we have the right answer.” 等及其准确率同时对比了不同模型如 PaLM2 -L-IT、PaIM 2-L、gpt-3.5-turbo、gpt-4 等在使用这些提示或类似表述时的表现还给出了相关论文链接及部分模型在有无神奇咒语情况下的准确率对比如 GPT 3.5 在 2023 年 6 月旧版本和 2024 年 2 月最新版本的情况。 幻灯片 13Prompt Leaderboard 相关 展示了 Prompt Leaderboard 的部分信息包括作者群、用户 prompt、得分、系统 prompt 等内容但未详细解释该排行榜的具体意义和用途。幻灯片 14提供额外信息 - 把前提讲清楚示例NTU 缩写解释 以询问 “NTU 是什么的缩写” 为例展示模型对 NTU 通常指新加坡南洋理工大学的解释同时提到在不同领域和国家 NTU 可能有其他含义但无特定上下文时一般指南洋理工大学。 幻灯片 15提供额外信息 - 提供生成式 AI 不清楚的信息再次整理 GPT 模型参数和训练资料表格 应要求制作 GPT、GPT2、GPT3 的模型参数和训练资料表格模型先搜索相关资料后给出更详细准确的结果如 GPT-1 参数 117M训练数据 BooksCorpusGPT-2 参数 1.5B训练数据 40GB WebTextGPT-3 参数 175B训练数据 570GB 包括 Common Crawl、WebText2、Books1 2、Wikipedia 等。 幻灯片 16提供范例 - 情感分析任务示例及相关研究 在情感分析任务中给出正面如 “我感到非常高兴”“今天天气真好”“这朵花真美”和负面如 “今天运气真差”“我真的是累了”的例子让模型进行情感分析模型能做出正确判断同时提及相关研究如 In-context learning及论文链接还展示了早期研究中模型对示例的理解情况如 2022 年时认为模型未真正看懂范例但现在部分模型有改进。 幻灯片 17提供范例 - 新闻分类任务示例及模型不同回答 根据给定的新闻类别定义政治、社会、财经、生活消、影视娱、、国际等让模型对芯片大厂辉达股价相关新闻进行分类模型最初回答为 “财经”后修正为 “政治”展示了模型在理解和应用分类规则时可能出现的偏差及修正过程。 幻灯片 18Gemini 1.5 In-context Learning翻译任务及评估指标 给出将英语句子 “Im getting pandanus, I want to make a mat.” 翻译为 Kalamang 语的任务展示 Gemini 1.5 Pro 在不同条件0-shot、half book、full book下的翻译结果以及与 GPT-4 Turbo、Claude 2.1 等模型在 BLEURT 和 chrF 评估指标上的得分对比但未详细解释这些评估指标的含义和具体计算方式。 幻灯片 19考考大家的观念翻译任务及结果分析 提出翻译 Kalamang 语的任务但未给出具体句子和结果可能是引导观众思考语言模型在翻译任务中的表现及相关问题同时提及之前幻灯片中 Gemini 1.5 Pro 等模型在翻译任务中的情况。 幻灯片 20把任务分多步骤来解 - 任务拆解概述及相关研究 强调将复杂任务拆解成多步骤来解决的方法如先写大纲再生成摘要或在解决数学问题时分步进行先列式再计算答案并提及相关研究如 Recursive Reprompting and Revision - Re3及论文链接。 幻灯片 21把任务分多步骤来解 - 模型思考Chain of Thought - CoT及模型检查错误原因解释 解释为什么叫模型思考Chain of Thought - CoT或解释会有用以数学问题为例模型先列式再得出答案同时指出这就是为什么模型思考对现在的 GPT3.5 帮助不大因为 GPT3.5 解数学题预设会列式还提到模型可以像考试检查考卷一样检查自己的错误有很多问题得到答案难但验证答案容易并举了鸡兔同笼问题的例子最初答案错误模型可检查修正幻灯片 22语言模型检查自己错误 - GPT-4 检查台大玫瑰花节信息错误示例 要求 GPT-4 检查之前提供的台大玫瑰花节信息是否正确GPT-4 发现信息与实际不符指出台湾赏花活动以樱花、杜鹃花和桐花等为主并非玫瑰花节并给出了其他赏花活动的建议如台北杨梅樱花节、台中杜鹃花节、台南白河莲花季。 幻灯片 23语言模型检查自己错误 - GPT-3.5 检查台大玫瑰花节信息错误示例 同样要求 GPT-3.5 检查台大玫瑰花节信息GPT-3.5 先承认之前回答有错误然后修正了活动举办时间五月上旬并再次强调了活动的其他内容展示玫瑰花、举办活动吸引民众、成为代表性和经典活动等。 幻灯片 24语言模型检查自己错误 - Constitutional AI 相关内容模型自我反省及修正示例 介绍 Constitutional AI 中模型自我反省的方式如在回答涉及不道德或非法内容如入侵他人 wifi时模型能根据批判请求Critique Request识别回答中的有害内容并根据修正请求Revision Request改写回答以去除有害内容如改为强烈建议不要入侵他人 wifi否则可能陷入法律麻烦同时提到模型如何从自我反省中学习是另一个故事未详细展开。 幻灯片 25为什么同一问题每次答案不同 - 模型不确定性解释及示例台湾大学相关 以台湾大学相关问题为例如 “什么是大型语言模型”“台大玫瑰花节相关问题” 等解释同一问题每次答案不同的原因包括模型的不确定性类似掷骰子有概率选择不同答案以及模型在不同运行中可能的变化尽管函数固定但内部处理过程可能导致结果差异。 幻灯片 26为什么同一问题每次答案不同 - 数学问题答案差异示例及 Self-Consistency 方法 以数学问题为例展示同一问题输入模型后答案可能不同如答案为 3、5 等并提及 Self-Consistency 方法该方法可用于处理同一问题多次回答不一致的情况提高答案的一致性和准确性。 幻灯片 27复杂任务拆解成多步骤 - 模型处理复杂任务流程及相关算法Tree of Thoughts - ToT、Graph of Thoughts - GoT 展示模型处理复杂任务的流程如将任务输入分解为多个步骤步驟一、步驟二、步驟三等并介绍了 Tree of ThoughtsToT和 Graph of ThoughtsGoT等算法ToT 将复杂任务拆解成多步骤处理GoT 的关键创新在于基于任意图形的思想转换如聚合思想成新思想、循环改进思想等同时给出相关论文链接但未详细解释算法的具体实现和操作细节。 幻灯片 28总结强化语言模型的方法回顾 回顾了在不训练模型的情况下强化语言模型的方法包括神奇咒语、提供额外信息、把任务分多步骤来解等强调这些方法可以帮助提高模型在各种任务中的表现。