长沙网站推广工具,如何做双版网站,网站建设外包必须注意几点,舆情分析是什么5. 大语言模型
5.1. 语言模型历史
20世纪90年代以前的语言模型都是基于语法分析这种方法#xff0c;效果一直不佳。到了20世纪90年代#xff0c;采用统计学方法分析语言#xff0c;取得了重大进展。但是在庞大而复杂的语言信息上#xff0c;基于传统统计的因为计算量巨大…5. 大语言模型
5.1. 语言模型历史
20世纪90年代以前的语言模型都是基于语法分析这种方法效果一直不佳。到了20世纪90年代采用统计学方法分析语言取得了重大进展。但是在庞大而复杂的语言信息上基于传统统计的因为计算量巨大难以进一步提升计算机语言分析的性能。2023年首度将基于神经网络的深度学习引入了语言分析模型中计算机理解语言的准确性达到了前所未有的高度。依然是因为计算量巨大基于深度学习的语言模型难以进一步提升准确性和普及应用。随着2018年研究人员将Transformer引入神经网络大幅缩减了计算量而且提升了语言的前后关联度再一次提升了自然语言处理的准确性并且将计算机处理自然语言的成本大幅降低。
5.2. 概念
随着语言模型参数规模的提升语言模型在各种任务中展现出惊人的能力(这种能力也称为“涌现能力”)自此进入了大语言模型(Large Language Model, LLM)时代。大语言模型 (LLM) 指包含数百亿或更多参数的语言模型这些模型在大量的文本数据上进行训练例如国外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等国内的有ChatGLM、文心一言、通义千问、讯飞星火等。 LLM多用于自然语言处理领域的问答、翻译进一步延伸到写文章编写代码等。随着多模态能力的增加大语言模型逐步展现出统都一人工智能的趋势做到真正的通用人工智能(AGI)。LLM逐步成为一个基础模型人们可以在LLM的基础上做进一步的优化完成更加专业精细的任务。
5.3. Transformer
5.3.1. 简介
Transformer模型是由谷歌团队在2017年发表的论文《Attention is All You Need》所提出。这篇论文的主体内容只有几页主要就是对下面这个模型架构的讲解。 5.3.2. 自注意力机制 传输的RNN用于处理系列时会增加一个隐藏状态用来记录上一个时刻的序列信息。在处理翻译文本时一个字的意思可能和前面序列的内容相关通过隐藏状态RNN能够很好地翻译上下文相关性较大的文本。但是如果文本内容非常大的时候隐藏状态无法完全包括之前的所有状态(如果包括其计算量非常巨大难以实现)。
自注意力机制(Self-Attention)是在注意力机制上优化得来的其只注意输入信息本身。即输入向量中每一个成员都和其他成员经过一个注意力函数处理之后形成一个相关性的权重向量表。如 这样一张权重向量表的计算量相比在RNN中隐藏状态的计算量少很多。
通过这个权重向量表无论需要翻译的原始文件多大都能够很好地找到之前信息对当前翻译信息的影响可以翻译得更加准确。