当前位置：首页 > news >正文

营销型门户网站建设浏览器下载免费大全

news 2026/7/27 6:13:19

营销型门户网站建设,浏览器下载免费大全,长治房产网站建设,河南平台网站建设2020年5月#xff0c;OpenAI在长达72页的论文《https://arxiv.org/pdf/2005.14165Language Models are Few-Shot Learners》中发布了GPT-3#xff0c;共有1750亿参数量#xff0c;需要700G的硬盘存储#xff0c;(GPT-2有15亿个参数)#xff0c;它比GPT-2有了极大的改进。根… 2020年5月OpenAI在长达72页的论文《https://arxiv.org/pdf/2005.14165Language Models are Few-Shot Learners》中发布了GPT-3共有1750亿参数量需要700G的硬盘存储(GPT-2有15亿个参数)它比GPT-2有了极大的改进。根据论文描述GPT-3非常强大给予任何文本提示GPT-3将返回一个文本试图匹配用户给它的模式。用户可以给它编程只需向它展示几个希望它做的例子它就会提供一篇完整的文章或故事。GPT-3在许多NLP数据集上都取得了很强的性能包括翻译、问题回答和cloze任务以及一些需要即时推理或领域适应的任务如在句子中使用一个新词或执行3位数运算。GPT-3可以生成人类评估人员难以区分的新闻文章样本。 1.GPT-3 提出背景 OpenAI在发布GPT2后并没有引起业界太大的影响和关注究其原因并不是zero-shot这种想法不够吸引人而是GPT2表现出来的效果依然差强人意仍然属于“人工智障”的阶段然而OpenAI认为他们的方向没有问题不在特定领域上做太多的微调甚至不做微调这样就能避免1.人工标注数据和2.重新训练模型才是大规模语言模型的未来因此在不久之后他们又提出了GPT-3GPT-3也就是chatGPT的前生。提出问题许多基于RNN或Transformer结构的语言模型通过“pre-train fine-tune”在许多NLP任务和基准方面取得了实质性进展。但这种方法必须拥有大量的下游任务fine-tune样本才能取得很好的性能。相比之下人类通常只需要几个例子或简单的指令就能完成一项新的语言任务——这是当前NLP系统仍难以做到的。GPT-3主要聚焦于更通用的NLP模型解决当前BERT类模型的两个缺点 1.对领域内有标签数据的过分依赖虽然有了预训练精调的两段式框架但还是少不了一定量的领域标注数据否则很难取得不错的效果而标注数据的成本又是很高的。 2.对于领域数据分布的过拟合在精调阶段因为领域数据有限模型只能拟合训练数据分布如果数据较少的话就可能造成过拟合致使模型的泛华能力下降更加无法应用到其他领域。 2.GPT-3 简介 GPT-3这是一个具有1750亿个参数的自回归语言模型比之前的任何非稀疏语言模型大至少10倍并在few-shot设置下测试其性能。对于所有任务GPT-3都是在没有任何梯度更新或微调的情况下应用的仅通过与模型的文本交互来指定任务。GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。主要贡献证明了通过增大参数量就能让语言模型显著提高下游任务在Few-shot仅给定任务说明和少量示例设置下的性能。有时甚至达到了与现有最先进的微调方法相比的竞争力。 GPT-3模型移除fine-tune有2个解决方案 1.meta-learning 模型在训练阶段具备了一系列模式识别的能力和方法并通过在预测过程中利用这些能力和方法以快速适应一个下游任务。最近的一些研究尝试通过称为in-context learning的方法来实现上述过程然而效果距离期待的相差甚远。 2.Large scale transformers Transformer语言模型参数的每一次增大都会让文本理解能力和其他的NLP下游任务的性能得到提升。此外有研究指出描述许多下游任务性能的log损失能让模型的性能和参数之间服从一个平滑趋势。考虑到in-context learning会将学习到的知识和方法存在模型的参数中假设模型的情境学习能力也会随着参数规模的增长而增长。 2-1 In-context learning In-context learning是论文中介绍的一个重要概念要理解in-context learning我们需要先理解meta-learning(元学习)。对于一个少样本的任务来说模型的初始化值非常重要从一个好的初始化值作为起点模型能够尽快收敛使得到的结果非常快的逼近全局最优解。元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围使得模型能够在有限的数据集上快速拟合并获得不错的效果。在语言模型的背景下这意味着该模型在训练时培养了广泛的技能和模式识别能力然后在推理时使用这些能力来快速适应或识别期望的任务 In-context learning在训练时使用预先训练的语言模型的文本输入作为任务规范的形式该模型以自然语言指令和/或任务的一些演示为条件然后通过预测下一步将发生什么来完成任务。尽管它已经显示出一些初步的希望但这种方法仍然取得了远不如微调的结果。元学习显然需要大幅改进才能成为解决语言任务的实用方法。这里的介绍使用的是MAMLModel-Agnostic Meta-Learning算法正常的监督学习是将一个批次的数据打包成一个batch进行学习。但是元学习是将一个个任务打包成batch每个batch分为支持集support set和质询集query set类似于学习任务中的训练集和测试集。对一个网络模型f其参数表示为θ它的初始化值被叫做meta-initialization。MAML的目标则是学习一组meta-initialization能够快速应用到其它任务中。MAML的迭代涉及两次参数更新分别是内循环inner loop和外循环outer loop。内循环是根据任务标签快速的对具体的任务进行学习和适应而外学习则是对meta-initialization进行更新。直观的理解我用一组meta-initialization去学习多个任务如果每个任务都学得比较好则说明这组meta-initialization是一个不错的初始化值否则我们就去对这组值进行更新如图所示。目前的实验结果表明元学习距离学习一个通用的词向量模型还是有很多工作要做的。语言建模的另一个最新趋势可能提供了前进的方向。近年来基于Transformer语言模型的容量大幅增加从1亿个参数[RNSS18]到3亿个参数[DCLT18]到15亿个参数/RWC19]到80亿个参数[SSP19]110亿个参数RSR19]最后是170亿个参数[Tur20]。每一次增加都带来了文本生成以及下游NLP任务的改进有证据表明log loss与许多下游任务密切相关随着规模的增长log loss呈现平稳的改善趋势[KMH20]。由于in-context learning在模型的参数范围内吸收许多技能和任务因此in-context learning能力可能会随着规模的增长而表现出同样强大的增益。 2-2 Few-shotone-shotzero-shot learning 情境学习in-context learning在被给定的几个任务示例或一个任务说明的情况下模型应该能通过简单预测以补全任务中其他的实例。即情境学习要求预训练模型要对任务本身进行理解。情境学习三种分类的定义和示例如下 1.few-shot learning 定义允许输入数条范例和一则任务说明示例向模型输入“这个任务要求将中文翻译为英文。你好-hello再见-goodbye购买-purchase销售-”然后要求模型预测下一个输出应该是什么正确答案应为“sell”。 2.one-shot learning 定义只允许输入一条范例和一则任务说明示例向模型输入“这个任务要求将中文翻译为英文。你好-hello销售-”然后要求模型预测下一个输出应该是什么正确答案应为“sell”。 3.zero-shot learning 定义不允许输入任何范例只允许输入一则任务说明示例向模型输入“这个任务要求将中文翻译为英文。销售-”然后要求模型预测下一个输出应该是什么正确答案应为“sell”。在few-shot learning中提供若干个 10 - 100 个示例和任务描述供模型学习。one-shot laerning是提供1个示例和任务描述。zero-shot则不提供示例只是在测试时提供任务相关的具体描述。作者对这3种学习方式分别进行了实验实验结果表明三个学习方式的效果都会随着模型容量的上升而上升且few shot one shot zero show。 2-3 数据集 GPT-3共训练了5个不同的语料分别是低质量的Common Crawl高质量的WebText2Books1Books2和WikipediaGPT-3根据数据集的不同的质量赋予了不同的权值权值越高的在训练的时候越容易抽样到如表所示。 2-4 模型结构 GPT-3沿用了GPT-2的结构但是在网络容量上做了很大的提升具体如下 1.GPT-3采用了 96 层的多头transformer头的个数为 96 2.词向量的长度是 12,888 3.上下文划窗的窗口大小提升至 2,048 个token 4.使用了alternating dense和locally banded sparse attention。 2-5 GPT-3的性能在大量的语言模型数据集中GPT-3超过了绝大多数的zero-shot或者few-shot的state-of-the-art方法。另外GPT-3在很多复杂的NLP任务中也超过了fine-tune之后的state-of-the-art方法例如闭卷问答模式解析机器翻译等。除了这些传统的NLP任务GPT-3在一些其他的领域也取得了非常震惊的效果例如进行数学加法文章生成编写代码等。 GPT3整个模型的参数量达到了1750亿个且做few-shot时不改变模型而是在输入指定任务后再输入一些针对任务的样例如要求英语翻法语就在translate English to French:后面加上一些翻译的样例最后再输入你的问题如cheese 其中也是提示词示意模型进行输出。这是基于transformer架构的自注意力机制实现的。但是每一次都要给样本因为模型没法存下样本的影响。 3. 总结 GPT系列从1到3通通采用的是transformer架构可以说模型结构并没有创新性的设计。在微软的资金支持下这更像是一场赤裸裸的炫富1750亿的参数31个分工明确的作者超强算力的计算机 285,000 个CPU 10,000 个GPU1200万的训练费用45TB的训练数据维基百科的全部数据只相当于其中的 0.6% 。甚至在训练GPT-3时出现了一个bugOpenAI自己也没有资金重新训练了。 GPT-3的本质还是通过海量的参数学习海量的数据然后依赖transformer强大的拟合能力使得模型能够收敛。基于这个原因GPT-3学到的模型分布也很难摆脱这个数据集的分布情况。得益于庞大的数据集GPT-3可以完成一些令人感到惊喜的任务但是GPT-3也不是万能的对于一些明显不在这个分布或者和这个分布有冲突的任务来说GPT-3还是无能为力的。例如通过目前的测试来看GPT-3还有很多缺点的: 1.对于一些命题没有意义的问题GPT-3不会判断命题有效与否而是拟合一个没有意义的答案出来 2.由于40TB海量数据的存在很难保证GPT-3生成的文章不包含一些非常敏感的内容例如种族歧视性别歧视宗教偏见等 3.受限于transformer的建模能力GPT-3并不能保证生成的一篇长文章或者一本书籍的连贯性存在下文不停重复上文的问题。 4.难以生成长文本序列太长效果就会差。由于采用的是解码器不能从后往前看在gpt里每个词都是同样重要的没有重点并且难以解释究竟是模型记住了样例还是模型学到了具体意义难以解释每个权重是做什么的可解释性差。 GPT-3如此强大性能的语言模型的提出为下游各种类型的NLP任务提供了非常优秀的词向量模型。近年来硬件的性能在飞速发展而算法的研究似乎遇见了瓶颈GPT-3给冷清的AI领域注入了一剂强心剂告诉各大硬件厂商它们的工作还要加油只要算力足够强AI的性能还有不断提升的上界。 4.思考 4-1 有监督模型向半监督甚至无监督方向发展数据的规模的增长速度远远超过了数据的标注速度这也就导致了大量无标签数据的产生。这些无标签的数据并非没有价值相反如果找到合适的“炼金术”将可以从这些海量的数据中获取意想不到的价值。如何利用上这些无标签的数据来改善任务的表现变成了一个越来越无法轻视的问题。 4-2 从少量数据复杂模型到大量数据简单模型深度神经网络的拟合能力非常的强大一个简单的神经网络模型就足以拟合任何函数。但无奈使用越简单的网络结构完成同一个任务对数据量的要求也更高。数据量越是上升数据质量越是提高往往对模型的要求就会越会降低。数据量越大模型就越容易捕捉到符合真实世界分布的特征。Word2Vec就是一个例子它所使用的目标函数非常的简单但是由于使用了大量的文本于是训练出的词向量中就包含了许多有趣的特性。 4-3 从专用模型向通用模型发展 GPT、BERT、MT-DNN、GPT-2都使用了经过预训练的通用模型来继续进行下游的机器学习任务并不需要对模型本身再做太多的修改。如果一个模型的表达能力足够的强训练时候使用的数据量足够的大那么模型的通用性就会更强就不需要针对特定的任务做太多的修改。最极端的情况就像是GPT-2这个样子训练时甚至完全不需要知道后续的下游任务是什么就能够训练出一个通用的多任务模型。 4-4 对数据的规模和质量提高 GPT、BERT、MT-DNN、GPT-2虽然先后刷榜在成绩的提升中数据规模的提升占有比结构调整更大的比重。随着模型的通用化和简单化为提升模型的性能今后更多的注意力将会从如何设计一个复杂、专用的模型转移到如何获取、清洗、精化出质量更加出众的、大量的数据上。数据的处理方式调整的作用将会大于模型结构调整的作用。 Reference: 1.https://www.zhihu.com/question/398114261/answer/1253942032 2.预训练语言模型之GPT-1GPT-2和GPT-3 - 知乎

查看全文

http://www.w-s-a.com/news/554820/