当前位置: 首页 > news >正文

重庆建设集团网站首页临沂网站建设教程

重庆建设集团网站首页,临沂网站建设教程,企业网站策划论文,介绍做素食的网站按上篇文章《ChatGPT技术原理解析#xff1a;从RL之PPO算法、RLHF到GPT-N、instructGPT》的最后所述 为了写本ChatGPT笔记#xff0c;过去两个月翻了大量中英文资料/paper(中间一度花了大量时间去深入RL)#xff0c;大部分时间读的更多是中文资料 2月最后几天读的更多是英文…按上篇文章《ChatGPT技术原理解析从RL之PPO算法、RLHF到GPT-N、instructGPT》的最后所述 为了写本ChatGPT笔记过去两个月翻了大量中英文资料/paper(中间一度花了大量时间去深入RL)大部分时间读的更多是中文资料 2月最后几天读的更多是英文paper正是2月底这最后几天对ChatGPT背后技术原理的研究才真正进入状态(后还组建了一个“ChatGPT之100篇论文阅读组”我和10来位博士、业界大佬从23年2.27日起100天读完ChatGPT相关技术的100篇论文)当然 还在不断深入由此而感慨  读的论文越多你会发现大部分人对ChatGPT的技术解读都是不够准确或全面的毕竟很多人没有那个工作需要或研究需要去深入了解各种细节因为100天100篇这个任务让自己有史以来一篇一篇一行一行读100篇​之前看的比较散 不系统 抠的也不细 比如回顾“Attention is all you need”这篇后对优化博客内的Transformer笔记便有了很多心得总之读的论文越多博客内相关笔记的质量将飞速提升 自己的技术研究能力也能有巨大飞跃 且考虑到为避免上篇文章篇幅太长而影响完读率故把这100论文的清单抽取出来独立成本文 Attention Is All You NeedTransformer原始论文GPTImproving Language Understanding by Generative Pre-Training GPT2Language Models are Unsupervised Multitask LearnersGPT3原始论文Language Models are Few-Shot LearnersICL原始论文Evaluating Large Language Models Trained on CodeCodex原始论文 预测当前序列的最后一个词时 可以选取概率最大的词(softmax最高的值)但没法全局最优且不具备多样性当然 可以使用束搜索 一次性获取多个解 论文中用的是核采样预测的各个词根据概率从大到小排序选取前些个概率加起来为95%的词CoT原始论文Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 28 Jan 2022 · Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou 也从侧面印证instructGPT从22年1月份之前 就开始迭代了Training language models to follow instructions with human feedback InstructGPT原始论文 RLHF原始论文PPO原始论文《Finetuned Language Models Are Zero-Shot Learners》2021年9月Google提出FLAN大模型其基于Instruction Fine-Tuning FLAN is the instruction-tuned version of LaMDA-PTScaling Instruction-Finetuned Language ModelsFlan-T5(2022年10月) 从三个方面改变指令微调一是改变模型参数提升到了540B二是增加到了1836个微调任务三是加上Chain of thought微调的数据LLaMA: Open and Efficient Foundation Language Models2023年2月Meta发布了全新的650亿参数大语言模型LLaMA开源大部分任务的效果好于2020年的GPT-3Language Is Not All You Need: Aligning Perception with Language Models微软23年3月1日发布的多模态大语言模型论文GLM: General Language Model Pretraining with Autoregressive Blank Infilling国内唐杰团队的 A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPThttps://arxiv.org/pdf/2302.09419预训练基础模型的演变史LaMDA: Language Models for Dialog ApplicationsGoogle在21年5月对外宣布内部正在研发对话模型LaMDAExploring the Limits of Transfer Learning with a Unified Text-to-Text TransformerPre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing作者来自CMU的刘鹏飞这是相关资源Multimodal Chain-of-Thought Reasoning in Language Models 23年2月亚马逊的研究者则在这篇论文里提出了基于多模态思维链技术改进语言模型复杂推理能力的思想Offsite-Tuning: Transfer Learning without Full Model 对于许多的私有基础模型数据所有者必须与模型所有者分享他们的数据以微调模型这是非常昂贵的并引起了隐私问题双向的一个怕泄露模型一个怕泄露数据Emergent Abilities of Large Language Models Google 22年8月份发的探讨大语言模型的涌现能力 Large Language Models are Zero-Shot Reasoners 来自东京大学和谷歌的工作关于预训练大型语言模型的推理能力的探究“Lets think step by step”的梗即来源于此篇论文PaLM: Scaling Language Modeling with Pathways这是翻译之一 22年4月发布是Google的Pathways架构或openAI GPT2/3提出的小样本学习的进一步扩展PaLM-E: An Embodied Multimodal Language ModelGoogle于23年3月6日发布的关于多模态LLMVisual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models微软于23年3月8日推出visual ChatGPT(另3.9日微软德国CTO说将提供多模态能力的GPT4即将一周后发布) At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one round fixed inputs and outputs.  To this end, We build a system called {Visual ChatGPT}, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by  1) sending and receiving not only languages but also images  2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps.  3) providing feedback and asking for corrected results.  We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback《The Natural Language Decathlon:Multitask Learning as Question Answering》GPT-1、GPT-2论文的引用文献Salesforce发表的一篇文章写出了多任务单模型的根本思想Deep Residual Learning for Image RecognitionResNet论文短短9页Google学术被引现15万多 这是李沐针对ResNet的解读另 这是李沐针对一些paper的解读列表The Flan Collection: Designing Data and Methods for Effective Instruction Tuning AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE Transformer杀入CV界Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Swin Transformer V2: Scaling Up Capacity and Resolution 第一篇的解读戳这第二篇的解读戳这里Denoising Diffusion Probabilistic Models 2020年提出Diffusion Models(所谓diffusion就是去噪点的意思)CLIP: Connecting Text and Images - OpenAI CLIP由OpenAI在2021年1月发布超大规模模型预训练提取视觉特征图片和文本之间的对比学习(简单粗暴理解就是发微博/朋友圈时人喜欢发一段文字然后再配一张或几张图CLIP便是学习这种对应关系) 2021年10月Accomplice发布的disco diffusion便是第一个结合CLIP模型和diffusion模型的AI开源绘画工具其内核便是采用的CLIP引导扩散模型(CLIP-Guided diffusion model)Hierarchical Text-Conditional Image Generation with CLIP Latents DALL.E 2论文2022年4月发布(至于第一代发布于2021年初)通过CLIP Diffusion models达到文本生成图像新高度High-Resolution Image Synthesis with Latent Diffusion Models 2022年8月发布的Stable Diffusion基于Latent Diffusion Models专门用于文图生成任务 这些是相关解读图解stable diffusion(翻译版之一)、这是另一解读这里有篇AI绘画发展史的总结 Stable Diffusion和之前的Diffusion扩散化模型相比, 重点是做了一件事, 那就是把模型的计算空间从像素空间经过数学变换在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里然后再进行繁重的模型训练和图像生成计算Aligning Text-to-Image Models using Human Feedback这是解读之一 ChatGPT的主要成功要归结于采用RLHF来精调LLM近日谷歌AI团队将类似的思路用于文生图大模型基于人类反馈Human Feedback来精调Stable Diffusion模型来提升生成效果 目前的文生图模型虽然已经能够取得比较好的图像生成效果但是很多时候往往难以生成与输入文本精确匹配的图像特别是在组合图像生成方面。为此谷歌最新的论文提出了基于人类反馈的三步精调方法来改善这个问题 SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions代码地址 3月中旬斯坦福发布Alpaca只花100美元人人都可微调Meta家70亿参数的LLaMA大模型 而斯坦福团队微调LLaMA的方法便是来自华盛顿大学Yizhong Wang等去年底提出的这个Self-Instruct 具体而言论文中提出首先从自生成指令种子集中的175个人工编写的「指令-输出」对开始然后提示text-davinci-003使用种子集作为上下文示例来生成更多指令 而斯坦福版Alpaca就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例微调LLaMA搞出来的 Constitutional AI: Harmlessness from AI Feedback OpenAI之前一副总裁离职搞了个ChatGPT的竞品ChatGPT用人类偏好训练RM再RL(即RLHF)Claude则基于AI偏好模型训练RM再RL(即RLAIF) Improving alignment of dialogue agents via targeted human judgements DeepMind的Sparrow这个工作发表时间稍晚于instructGPT其大致的技术思路和框架与 instructGPT 的三阶段基本类似但Sparrow 中把奖励模型分为两个不同 RM 的思路 Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers代码地址这篇文章则将ICL看作是一种隐式的Fine-tuning WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS Meta-learning via Language Model In-context Tuning // 23年2.27日起本榜单几乎每天更新中
http://www.w-s-a.com/news/420611/

相关文章:

  • 电商网站界面设计流程ps培训班一般学费多少钱
  • 西安网站运营上海闵行区网站制作公司
  • 宁波网站推广代运营长链接转化成短链接工具
  • 小企业如何建网站怎么自己制作app
  • 苏州品牌网站制作公司宁波建设工程有限公司
  • 合肥网站建设zgkr互联网创业好项目
  • 哪里学网站建设与管理云落wordpress
  • 网站建设意见做网站涉及到哪些
  • 网站导航栏原型图怎么做怎么样创建一个网站
  • 遨游建站金融网站建站
  • cms企业网站模板上海网站开发平台
  • 贵阳网站建设搜q479185700网站团队建设
  • 电商网站建设 教学总结蚌埠市住房建设部网站
  • 深圳罗湖企业网站发稿类别是什么
  • 做网站基本语言企业应用软件开发
  • 网站建设与运营 市场分析影视小程序搭建
  • vs 团队网站开发中铁建设门户网登录咋进不去了
  • 快速网站建设公司哪家好优秀的网站建设
  • 网站开发的自适应wordpress搜索词结果按文章标题
  • 微网站是用什么开发的wordpress中英文主题
  • 纯静态网站怎么做淄博seo开发
  • 江西新农村建设权威网站盐步网站制作
  • 网站ui设计例子怎么做打鱼网站
  • 在1688做公司网站wordpress category
  • 单页面 网站 模板网站代理公司
  • 手机网站底部电话代码网站后台点击添加图片没有反应
  • 龙岩建设局网站声明自学制作网站难不难
  • 济南网站优化小黑godaddy中文网站开发
  • 做微课常用的网站广州seo优化推广
  • 主机屋如何做网站电脑网页游戏大全