当前位置：首页 > news >正文

网站建设分金手指排名二七wordpress添加视频

news 2025/12/16 22:48:34

网站建设分金手指排名二七,wordpress添加视频,phpmysql网站开发全程实例,玉儿做春梦网站节前#xff0c;我们星球组织了一场算法岗技术面试讨论会#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学. 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。汇总合集我们星球组织了一场算法岗技术面试讨论会邀请了一些互联网大厂朋友、参加社招和校招面试的同学. 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。汇总合集《大模型面试宝典》(2024版) 发布一、引言随着大型语言模型如 ChatGPT 的横空出世我们进入了自然语言处理NLP的一个新纪元。在这个纪元中Transformer 架构扮演着至关重要的角色。其独特之处不仅在于其技术上的突破更在于它如何彻底改变了我们对语言模型潜力的理解。 Transformer是一种深度学习架构它使用注意力来显著提高深度学习 NLP 翻译模型的性能其首次在论文《Attention is all you need》中出现。其问世标志着从序列建模的传统方法如长短期记忆网络和门控循环单元转变到一个更加高效、更能捕捉复杂语言模式的新框架它允许模型同时处理输入序列的所有元素并捕捉它们之间的复杂关系。这种全面的注意力机制使得Transformer在处理长序列时相比于其前辈们更加高效与准确。 Transformer 的以上特点不仅提高了模型处理语言的能力还极大增强了其学习复杂语言模式的能力。使得类 GPT 系列这样的模型不仅能理解和生成自然语言还能在多种任务上表现出色如文本摘要、问答、翻译等。这种多功能性和灵活性的提升为我们处理和理解自然语言提供了前所未有的可能性。本文来自于 2023 年初翻译的 Ketan Doshi 博客中关于 Transformer 的系列文章。作者在系列文章中介绍了 Transformer 的基本知识架构及其内部工作方式并深入剖析了 Transformer 内部的细节。系列文章共有四篇本文为第一篇主要从整体上介绍了 Transformer 的整体架构工作过程。二、何为 Transformer Transformer 架构擅长处理文本数据这些数据本身是有顺序的。它们将一个文本序列作为输入并产生另一个文本序列作为输出。例如将一个输入的英语句子翻译成西班牙语。 Transformer 的核心部分包含一个编码器层和解码器层的堆栈。为了避免混淆我们把单个层称为编码器或解码器并使用编码器堆栈或解码器堆栈分别表示一组编码器与一组解码器。原文为 Encoder stack 和_Decoder stack_。在编码器堆栈和解码器堆栈之前都有对应的嵌入层。而在解码器堆栈后有一个输出层来生成最终的输出。编码器堆栈中的每个编码器的结构相同。解码器堆栈亦然。其各自结构如下编码器一般有两个子层包含自注意力层 self-attention用于计算序列中不同词之间的关系同时包含一个前馈层 feed-forward。解码器一般有三个子层包含自注意力层_self-attention_前馈层 feed-forward编码器-解码器注意力层 Decoder-Encoder self attention。每个编码器和解码器都有独属于本层的一组权重。注意编码器与解码器的自注意力层 self-attention、前馈层 feed-forward以及解码器中的编码器-解码器注意力层 Decoder-Encoder self attention 均有残差连接以及正则化层。基于 Transformer 的变体有许多。一些 Transformer 架构甚至没有 Decoder 结构而仅仅依赖 Encoder。三、Attention 在做什么 Transformer 的突破性表现关键在于其对注意力的使用。在处理一个单词时注意力使模型能够关注输入中与该单词密切相关的其他单词。例如在以下的英文句子中ball 与 blue 、hold 密切相关。另一方面boy 与 blue 没有关系。 Transformer 通过将输入序列中的_每个词与其他词_关联起来同一序列中形成 self-attention 机制。考虑以下两个句子 The cat drank the milk because it was hungry. The cat drank the milk because it was sweet. 第一个句子中单词 ‘it’ 指‘cat’第二个句子中‘it’ 指 ‘milk’。当模型处理 it’这个词时self-attention 给了模型更多关于 ‘it’ 意义的信息这样就能把 it 与正确的词联系起来。为了使模型能够处理有关于句子意图和语义的更多细微差别Transformer 对每个单词都进行注意力打分**。** 在处理 it 这个词时第一个分数突出 “cat”而第二个分数突出 “hungry”。因此当模型解码’it’这个词时即把它翻译成另一种语言的单词时将会把 ‘cat’ 和 ‘hungry’ 某些语义方面的性质纳入到目标语言中。四、Transformer 训练过程 Transformer 的训练和推理有一些细微差别。首先来看训练。每一条训练数据都包括两部分内容输入序列或称为“源序列”(例如对于一个翻译问题“You are welcome” 是一个输入序列) 输出序列或称为“目标序列(上述的翻译问题 “De nada” 即为“You are welcome” 的西班牙语翻译为输出序列) 而 Transformer 训练的目标就是通过对训练数据中源序列与目标序列之间规律的学习在测试或实际的任务中给定源序列生成目标序列。如上图所示Transformer在训练过程中模型对数据的处理过程如下大体可分为 6 个步骤在送入第一个编码器之前输入序列 (src_seq) 首先被转换为嵌入同时带有位置编码产生词嵌入表示(src_position_embed)之后送入第一个编码器。由各编码器组成的编码器堆栈按照顺序对第一步中的输出进行处理产生输入序列的编码表示(enc_outputs)。在右侧的解码器堆栈中目标序列首先加一个句首标记被转换成嵌入带位置编码产生词嵌入表示(tgt_position_embed)之后送入第一个解码器。由各解码器组成的解码器堆栈将第三步的词嵌入表示(tgt_position_embed)与编码器堆栈的编码表示(enc_outputs)一起处理产生目标序列的解码表示(dec_outputs)。输出层将其转换为词概率和最终的输出序列(out_seq)。损失函数将这个输出序列(out_seq)与训练数据中的目标序列(tgt_seq)进行比较。这个损失被用来产生梯度在反向传播过程中训练模型。五、Transformer 推理过程在推理过程中我们只有输入序列而没有目标序列作为输入传递给解码器。Transformer 推理的目标是仅通过输入序列产生目标序列。因此与 Seq2Seq 模型类似我们在一个时间步的完整循环中生成当前时间步的输出并在下一个时间段将前一个时间段的输出序列传给解码器作为其输入直到我们遇到句末标记。但与 Seq2Seq 模型的不同之处在于在每个时间步我们输入直到当前时间步所产生的整个输出序列而不是只输入上一个时间步产生的词类似输入序列长度可变的自回归模型。非常重要把原文粘过来The difference from the Seq2Seq model is that, at each timestep, we re-feed the entire output sequence generated thus far, rather than just the last word. 推理过程中的数据流转如下第一步与训练过程相同输入序列 (src_seq) 首先被转换为嵌入带有位置编码产生词嵌入表示(src_position_embed)之后送入第一个编码器。第二步也与训练过程相同由各编码器组成的编码器堆栈按照顺序对第一步中的输出进行处理产生输入序列的编码表示(enc_outputs)。从第三步开始一切变得不一样了在第一个时间步使用一个只有句首符号的空序列来代替训练过程中使用的目标序列。空序列转换为嵌入带有位置编码的嵌入(start_position_embed)并被送入解码器堆栈中的第一个解码器。解码器堆栈将第三步的空序列嵌入表示(start_position_embed)与编码器堆栈的编码表示(enc_outputs)一起处理产生目标序列第一个词的编码表示(step1_dec_outputs)。输出层将其(step1_dec_outputs)转换为词概率和第一个目标单词(step1_tgt_seq)。将这一步产生的目标单词填入解码器输入的序列中的第二个时间步位置。在第二个时间步解码器输入序列包含句首符号产生的 token 和第一个时间步产生的目标单词。回到第3个步骤与之前一样将新的解码器序列输入模型。然后取输出的第二个词并将其附加到解码器序列中。重复这个步骤直到它预测出一个句末标记。需要明确的是由于编码器序列在每次迭代中都不会改变我们不必每次都重复第1和第2步。六、Teacher Forcing 训练时向解码器输入整个目标序列的方法被称为 Teacher Forcing。训练时我们本可以使用与推理时相同的方法。即在一个时间步运行 Transformer从输出序列中取出最后一个词将其附加到解码器的输入中并将其送入解码器进行下一次迭代。最后当预测到句末标记时Loss 函数将比较生成的输出序列和目标序列以训练网络。但这种训练机制不仅会导致训练时间更长而且还会增加模型训练难度若模型预测的第一个词错误则会根据第一个错误的预测词来预测第二个词以此类推。相反通过向解码器提供目标序列实际上是给了一个提示。即使第一个词预测错误在下一时间步它也可以用正确的第一个词来预测第二个词避免了错误的持续累加。此外这种机制保证了 Transformer 在训练阶段并行地输出所有的词而不需要循环这大大加快了训练速度。七、 Transformer 应用场景 Transformer 的用途非常广泛可用于大多数NLP任务如语言模型和文本分类。它们经常被用于 Seq2Seq 的模型如机器翻译、文本总结、问题回答、命名实体识别和语音识别等应用。对于不同的问题有不同的 Transformer 架构。基本的编码器层被用作这些架构的通用构件根据所解决的问题有不同的特定应用 “头”。 1. Transformer 分类器架构如下所示一个情感分析程序把一个文本文件作为输入。一个分类头接收Transformer 的输出并生成预测的类别标签如正面或负面情绪。 2. Transformer Language Model architecture Language Model architecture 架构将把输入序列的初始部分如一个文本句子作为输入并通过预测后面的句子来生成新的文本。一个 Language Model architecture 头接受 Transformer 的输出作为 head 的输入产生关于词表中每个词的概率输出。概率最高的词成为句子中下一个词的预测输出。八、与 RNN 类型的架构相比为什么 Transformer 的效果要好 RNNs 和 LSTMs、GRU也是之前 NLP 常用的架构直到 Transformer 的出现。然而这有两个限制对于长句中相距较远的单词其间的长距离依赖关系是一个挑战。 RNNs 每个时间步值处理输入序列的一个词。这意味着在完成时间步 T-1 计算之前它无法进行时间步骤 T 的计算。即无法进行并行计算这降低了训练和推理速度。对于CNN来说所有的输出都可以并行计算这使得卷积速度大大加快。然而它们在处理长距离的依赖关系方面也有限制卷积层中只有图像或文字如果应用于文本数据中足够接近于核大小的部分可以相互作用。对于相距较远的项目你需要一个有许多层的更深的网络。 Transformer 架构解决了这两个限制。它摆脱了RNNs完全依靠 Attention的优势并行地处理序列中的所有单词从而大大加快了计算速度。输入序列中单词之间的距离并不重要。Transformer 同样擅长计算相邻词和相距较远的词之间的依赖关系。总结作为系列文章的第一篇本文介绍了 Transformer 的整体架构以及训练、推理的过程。下一篇文章将深入到 Transformer 的各层从数据流转的过程介绍 Transformer 各层的原理及作用。用通俗易懂方式讲解系列《大模型面试宝典》(2024版) 正式发布《大模型实战宝典》2024版正式发布用通俗易懂的方式讲解自然语言处理初学者指南附1000页的PPT讲解用通俗易懂的方式讲解1.6万字全面掌握 BERT 用通俗易懂的方式讲解NLP 这样学习才是正确路线用通俗易懂的方式讲解28张图全解深度学习知识用通俗易懂的方式讲解不用再找了这就是 NLP 方向最全面试题库用通俗易懂的方式讲解实体关系抽取入门教程用通俗易懂的方式讲解灵魂 20 问帮你彻底搞定Transformer 用通俗易懂的方式讲解图解 Transformer 架构用通俗易懂的方式讲解大模型算法面经指南附答案用通俗易懂的方式讲解十分钟部署清华 ChatGLM-6B实测效果超预期用通俗易懂的方式讲解内容讲解代码案例轻松掌握大模型应用框架 LangChain 用通俗易懂的方式讲解如何用大语言模型构建一个知识问答系统用通俗易懂的方式讲解最全的大模型 RAG 技术概览用通俗易懂的方式讲解利用 LangChain 和 Neo4j 向量索引构建一个RAG应用程序用通俗易懂的方式讲解使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA 用通俗易懂的方式讲解面了 5 家知名企业的NLP算法岗(大模型方向)被考倒了。。。。。用通俗易懂的方式讲解NLP 算法实习岗对我后续找工作太重要了。用通俗易懂的方式讲解理想汽车大模型算法工程师面试被问的瑟瑟发抖。。。。用通俗易懂的方式讲解基于 Langchain-Chatchat我搭建了一个本地知识库问答系统用通俗易懂的方式讲解面试字节大模型算法岗(实习) 用通俗易懂的方式讲解大模型算法岗(含实习)最走心的总结用通俗易懂的方式讲解大模型微调方法汇总

查看全文

http://www.w-s-a.com/news/151073/