当前位置: 首页 > news >正文

百度做网站多没有网站 淘宝客

百度做网站多,没有网站 淘宝客,济南网站制作多少钱一个,百度电脑网页版入口一、Transformer Transformer#xff1a;一种基于自注意力机制的神经网络结构#xff0c;通过并行计算和多层特征抽取#xff0c;有效解决了长序列依赖问题#xff0c;实现了在自然语言处理等领域的突破。 Transformer 架构摆脱了RNNs#xff0c;完全依靠 Attention的优…一、Transformer Transformer一种基于自注意力机制的神经网络结构通过并行计算和多层特征抽取有效解决了长序列依赖问题实现了在自然语言处理等领域的突破。 Transformer 架构摆脱了RNNs完全依靠 Attention的优势 并行地处理序列中的所有单词从而大大加快了计算速度输入序列中单词之间的距离并不重要。Transformer 同样擅长计算相邻词和相距较远的词之间的依赖关系。 Attention Is All You Need 架构简介 左半部分是encoders右半部分是decoders。注意这里有一个xN即encoder和decoder的个数原文中是给定了6个。这两个还有一个特点encoder和decoder架构是不相同的。 流程介绍 Embedding 词嵌入将文本转成向量。最终得到的词嵌入矩阵是一个大小为词汇量嵌入维度的二维数组矩阵。词嵌入矩阵中的向量​是通过Word2Vec、GloVe和FastText等训练词嵌入模型生成的。Positional Encoding位置编码将向量加上位置信息。位置嵌入矩阵也是一个大小为词汇量嵌入维度参数矩阵通过训练过程优化或固定数学函数生成。词嵌入向量表示词语的语义信息而位置嵌入向量表示词语在序列中的位置信息。通过将两者相加最终的输入向量同时包含了词语的语义和位置信息。Multi-Headed Self-Attention多头自注意力机制算出词与词关联度关系。在self-attention中每个单词有3个不同的向量它们分别是Query向量 QKey向量 K和Value向量 V长度一致。它们是通过3个不同的词位置嵌入向量 乘以3个不同的权值矩阵W 得到最终基于多头注意力公式得到多头注意力向量。多头指的是使用多个不同的权值矩阵W 获取多组结果后再组成一组向量。Add Norm残差链接和层归一化。这两个动作关乎的是训练过程是为了让反向传播梯度下降去寻找上面那一堆参数最优解的过程更稳定。残差连接就是将多头向量与QKV操作前的原始向量直接相加获得一个新的512维的向量至少原始数据信息还在。层归一化有公式可以操作其实都是重复的做简单的数学题。Feed-Forward Network前馈神经网络。前面步骤要不直接线性变换要么就是直接的相加将向量送入前馈神经网络可以更精细化处理。首先连接到一个拥有更多神经元的全连接层比如将512升为到2048维对应的权重矩阵同时应用激活函数引入非线性也就是以更高级的方式处理数据了。接下来再加一层将2048维降回512继续的使用。此时的数据已经被重新精细处理过同样是为了反向传播梯度下降训练过程更稳定。总结来说前馈神经网络通过其多层结构和非线性变换能力能够有效地处理各种任务帮助模型学习到有用的特征并提高模型的性能。Masked Multi-Headed Self-Attention掩码多头自注意力机制。解码器掩掉句子后面的信息与编码器整个输出交互 不断预测训练寻找整个模型的最佳参数组合逼近人类语言。比如翻译训练过程左边输入“我爱学习” 右边对应输入“I like learning”但是我们希望右边的句子是一个个基于前一个词推理输出的。因此右侧的过程是先“Shifed Target Sequence”送入时多加了一个词“[start] I like learning”然后一样的处理词嵌入、位置编码加入位置信息进入掩码多头注意力操作会将[start]后面的全遮盖住数学上是将遮盖部分设为一个很大的负数这样通过soflermax函数就直接忽略掉了后面这些信息。Multi-Headed Cross-Attention多头交叉注意力机制利用解码器的输入作为Query与编码器的输出作为Key和Value计算注意力权重使解码器动态关注编码器输出的相关信息每个头独立学习不同的特征模式最后将所有头的输出拼接通过线性层融合得到最终结果。继续上面例子[start]“继续的进入其实跟左边编码器同样的操作过程也是三套参数生成Q、K、V三个向量。区别是K和V的生成用的是左侧编码器的输出向量生成的。这样解码器就将”[start]“与编码器的整个输出进行了交互。这样才能走出编码器进行一次线性变换通过Softmax函数输出下一个词的概率最大那就是对的。再回头整个句子再输入进来。这次遮挡的是”[start] I后面的编码器混合交互完预测下一个词“like”概率最高。如此反复不断训练不断的喂给它中英文对照的翻译数据集不断的遮盖预测不断的通过损失函数梯度下降反向传播寻找整个模型的最佳参数组合无限逼近人类自然语言。 Transformer算法相较于传统神经网络算法如RNN、CNN等具有以下显著优势 并行计算能力 Transformer通过自注意力机制Self-Attention能够并行处理序列中的所有单词而传统RNN需要逐个处理序列导致计算速度较慢。这种并行性使得Transformer在训练和推理速度上具有显著优势。 处理长距离依赖关系 Transformer能够有效捕捉序列中单词之间的长距离依赖关系而传统RNN在处理长序列时容易出现梯度消失或梯度爆炸问题导致对长距离依赖的建模能力较弱。 模块化架构 Transformer由编码器Encoder和解码器Decoder组成每个部分包含多个相同的模块Block这种模块化设计使得模型结构清晰且易于扩展。 全局特征提取能力 Transformer通过自注意力机制能够关注序列中的全局信息而传统CNN主要关注局部特征。这种全局特征提取能力使得Transformer在自然语言处理等任务中表现更优。 与CNN结合的潜力 Transformer可以与CNN结合如苹果的FastViT架构将CNN的局部特征提取能力与Transformer的全局特征提取能力相结合实现性能和准确率的平衡。 硬件加速支持 Transformer架构可以通过硬件加速如NeuroBoost 9000进一步优化性能支持更大规模的模型和更复杂的任务。 我们首先把一个单独的encoder拿出来去剖析一下里面的细节。 词嵌入 Token Embedding 输入部分分为两个小部分第一部分就是embedding第二部分就是位置编码。 Embedding层将离散的词汇或符号转换为连续的高维向量使得模型能够处理和学习这些向量的语义关系。比如说我们的输入句子是“我爱你” 步骤1词表映射 词表Vocabulary假设词表中有5000个词每个词对应一个唯一ID。首先需要将每个词转换成对应的词ID 我 → ID 101 爱 → ID 205 你 → ID 209 学习 → ID 307步骤2词嵌入矩阵 然后这些ID会被输入到嵌入层embedding layer转换成向量。例如 我 → [0.2, -0.1, 0.5 ...] 爱 → [0.1, 0.3, -0.2 ...] 你 → [-0.3, 0.2, 0.4 ...]词嵌入矩阵是一个大小为词汇量嵌入维度的二维数组矩阵。行数对应词汇量列数对应嵌入维度。每个词对应一行向量用于表示该词的语义信息如嵌入维度是512则每个词含512个向量值。词嵌入矩阵中的向量​是通过训练词嵌入模型生成的。常用的词嵌入模型包括Word2Vec、GloVe和FastText。这些模型通过分析大量文本数据学习词语之间的关系生成有意义的向量表示。生成的向量表示词语在高维空间中的位置语义相近的词在向量空间中距离较近。例如king和queen的向量会比较接近而king和apple则会比较远。训练目标通过最小化预测误差模型调整词向量使得语义相似的词在向量空间中接近从而捕捉词语的语义和句法信息。 位置编码Positional Encoding RNN有天然的时序关系但是对于transformer来讲单词是可以一起处理的这样做增快了速度但是忽略了单词之间的序列关系这个时候我们就需要位置编码。 Transformer原版的正弦/余弦编码公式如下 其中pos 是位置i是维度索引dmodel是模型维度。 特点 正弦函数保证编码值在 [−1,1] 之间与词向量尺度匹配。不同频率的正弦/余弦组合可捕捉不同粒度的位置关系。支持外推处理比训练时更长的序列。 正余弦编码的意义 先说pos, position就是单词或者是字的位置。它如果是512个维度的位置编码这512个维度中偶数位置使用sin奇数位置使用cos。 sin和cos函数值域有限定义域无限可以很好地限制位置编码的数字大小。反观顺序编码超长序列的pos可能会远远超过原始的语义、向量相加后会导致喧宾夺主的问题 通过调节频率我们可以得到多种多样的sin和cos函数。即在pos的基础上乘以 这个频率f的行为我们可以让特征编号i小的特征被投射到剧烈变化f大趋于1会被投射到高频率的正弦函数上的维度上让特征编号i大的特征被投射到轻微变化、甚至完全单调f小趋于0会被投射到低频率的正弦函数上的维度上。从而可以让小编号特征去捕捉样本之间的局部细节差异【位置相近的值编码变化较大】让大编号特征去捕捉样本之间按顺序排列的全局趋势【位置相近的值编码变化较小】 1位置嵌入的作用在Transformer模型中位置嵌入用于保存单词在序列中的位置信息。由于Transformer不使用RNN无法自然捕捉顺序信息因此位置嵌入至关重要。 2生成方法 可学习的嵌入层位置嵌入矩阵是一个参数矩阵通过训练过程优化。模型在训练时会调整这些向量使得它们能够有效捕捉位置信息。例如位置1的向量[0.1, 0.2, 0.3]可能是在训练过程中通过反向传播算法优化得到的。固定数学函数另一种方法是使用固定的数学函数生成位置嵌入比如正弦和余弦函数。这种方法不需要训练位置信息由数学公式直接生成。 3训练过程在可学习的嵌入层中模型通过反向传播算法调整位置嵌入矩阵的值使得模型能够更好地捕捉位置信息。训练目标是优化模型的整体性能包括准确率、F1分数等。 4位置嵌入矩阵的作用位置嵌入矩阵是一个二维数组行数对应序列长度列数对应嵌入维度。每个位置对应一行向量用于表示该位置的信息。 5向量表示的意义生成的向量表示位置在高维空间中的位置相邻位置的向量在向量空间中距离较近反映了它们在序列中的相对位置 位置编码示例 位置1 → [0.1, 0.2, 0.3 ...] 位置2 → [0.4, 0.5, 0.6 ...] 位置3 → [0.7, 0.8, 0.9 ...]得到这个位置编码之后我们将位置编码512维度和词向量维度的512个维度相加得到一个最终的512维度作为整个transformer的输入。 我位置1→ [0.3, 0.1, 0.8 ...] 爱位置2→ [0.5, 0.8, 0.4 ...] 你位置3→ [0.4, 1.0, 1.3 ...]为什么位置编码会有用 对样本的位置本身进行“编码”利用数字本身自带的顺序来告知Transformer。 多头注意力机制Multi-Head Attention 我们先用这张图解释注意力机制 人类在看一张图片的时候肯定有最关注的部分和不怎么关注的部分颜色深的表示很受关注比较浅的就就不怎么受关注。我们想判断婴儿在干嘛这句话更加关注于图片中的哪个区域我们想通过公式或者通过某种方式得到这个结果这就是这就是注意力机制的一种基本形式。 再举个例子“一张狼抓住了一只兔子并开始疯狂撕咬它”。怎么让模型知道它指的谁呢或者“我吃了个苹果”里面的“苹果”怎么让模型知道指的是水果还是手机所以除了跟踪词义和位置之外跟踪输入的每个词与词之间的关系也非常重要我们就要量化这种关系了。接下来的这个模块就是要创造一个叫自注意力的东西。然后这个东西怎么做呢我们先看一下transformer原论文中的注意力机制公式 那么首先在transformer中是怎么获得Q、K、V 这3个向量的呢 其实很简单X1乘以一个WQ的矩阵参数得到q1乘以WK矩阵的k1乘以WV矩阵的v1。X2 我们也使用同一套矩阵参数得到。 2然后根据公式计算Q、K相似度得到attention值。 第3步通过将查询矩阵和键举证相乘得到了所有Query-Key之间的点积网络。可以理解为每个Q查询和K值的匹配相似度 在实际操作中会使用矩阵方便并行 还一个细节点就是说我们在操作的时候叫多头。我们在这里其实只用了一套参数但是在实际操作的时候我们会用多套多头得到各自的Q、K、V最终也就输出了多个Z可以理解为基于不同属性不同角度观察数据更全面理解输入信息最后合在一起作为一个输出再来一次神经变换最终就获得了多头注意力向量。 二、LLaMA 预训练模型LLaMA是Meta公司2023年2月推出的人工智能模型。2023年7月18日Meta发布了开源大模型LLaMA 2最大的卖点是开源且可商用。 2024年4月18日Meta推出了新版本LLaMA人工智能模型LLaMA 3已用于Meta AI助手同时也面向开发者进行了开源。2024年9月25日Meta在Connect开发者大会上发布了能够同时理解图像和文本的最新多模态模型LLaMA 3.2允许人们通过语音进行互动。 1、技术架构 LLaMA是建立在Transformer基础架构上的自回归语言模型以序列的方式处理输入文本通过预测下一个单词或标记来生成文本。在Transformer架构基础上LLaMA 2引入了Grouped Query Attention等技术改进提高了模型的效率和性能。 1.基础架构——Transformer 核心组件Transformer架构是LLaMA的基础主要由编码器和解码器组成两者都包含多个堆叠的多头注意力Multi-Head Attention层和前馈神经网络Feed-Forward Neural NetworkFFN层。在LLaMA中主要使用了解码器部分来进行自回归语言建模。 工作原理在输入文本后首先会对文本进行分词处理将其转换为一系列的标记tokens。每个标记会被映射到一个低维向量空间得到对应的词向量表示。然后这些词向量会依次进入解码器的各层。在每一层中先通过多头注意力机制对输入信息进行加权聚合捕捉文本中的长距离依赖关系确定每个位置与其他位置的关联程度计算出加权后的输出。之后将多头注意力的输出送入前馈神经网络进行进一步的特征提取和变换最终输出经过处理后的向量表示用于生成下一个单词的概率分布等任务。 2.改进与优化 位置编码为了让模型能够捕捉文本中的顺序信息LLaMA采用了旋转位置编码Rotary Position Embedding。与传统的位置编码方法不同旋转位置编码通过对向量进行旋转操作来注入位置信息能够更好地处理长序列数据在长文本建模方面表现更优有助于模型更准确地理解文本的顺序和结构。 多头注意力机制的优化在多头注意力机制中LLaMA对计算方式和参数设置等方面进行了优化。通过调整头的数量、注意力头的维度等超参数以及改进注意力权重的计算方法提高了模型对文本中复杂语义关系的捕捉能力使得模型能够更精细地分析文本中的不同信息增强了模型的表示能力。 层归一化Layer Normalization在每一层的计算中LLaMA使用了层归一化技术。对神经网络的每一层输入进行归一化处理使得输入数据在经过每一层时都具有稳定的分布有助于加速模型的训练收敛减少梯度消失或爆炸等问题提高模型的稳定性和泛化能力。 优化的激活函数在FFN层中LLaMA可能采用了一些改进的激活函数如Swish等。这些激活函数具有更好的非线性特性能够增强模型的表达能力使模型能够更灵活地拟合各种复杂的语言模式提高模型对语言知识的学习效果。 高效的训练策略在训练过程中LLaMA采用了多种优化策略来提高训练效率和模型性能。例如使用了大规模的数据集和高效的并行计算技术通过数据并行和模型并行等方式在多个GPU或TPU上进行分布式训练加快训练速度。同时采用了优化的学习率调度算法根据训练的进度和模型的性能动态调整学习率使得模型能够更快地收敛到较优的参数空间。 3.LLaMA 2的技术改进 分组查询注意力Grouped Query Attention在LLaMA 2中引入了Grouped Query Attention技术它可以在不降低模型性能的前提下减少注意力计算的复杂度和内存占用提高模型的推理速度和效率。通过将查询向量分组共享部分键值对减少了计算量同时保持了对长序列数据的建模能力。 上下文长度扩展LLaMA 2将上下文长度限制进行了扩展相比LLaMA能够处理更长的输入文本序列。这使得模型在处理长篇文档、复杂对话等任务时能够更好地利用上下文信息提高对长序列文本的理解和生成能力增强了模型在实际应用中的适应性和灵活性。 2、参数规模 LLaMA包括70亿、130亿、330亿、650亿这四种参数规模。 LLaMA 2包含了70亿、130亿和700亿参数的模型。 LLaMA 3大规模版本参数量超过1400亿。 3、训练数据 LLaMA训练数据来源广泛包括67.0% Common Crawl、15.0% C4、4.5% GitHub、4.5% Wikipedia、4.5% Books、2.5% Arxiv、2.0% Stack Exchange。 LLaMA 2训练所用的token翻了一倍至2万亿训练数据比前一代多了40%有超过100万的人类注释来微调输出质量。 LLaMA模型的训练数据有以下特点 1.来源广泛 涵盖多领域数据包括CommonCrawl、C4、GitHub、Wikipedia、Gutenberg and Books3、ArXiv、Stack Exchange等。涵盖网页文本、百科知识、代码、学术论文、文学作品、问答数据等多种类型使模型能学习到丰富多样的语言知识和语义信息。 包含多种语言数据虽然以英语数据为主但也包含一定比例的高质量非英语数据如C4数据集覆盖了多种语言让模型具备一定的跨语言理解和处理能力。 2.数据规模庞大 海量token数据LLaMA最初版本训练数据达1.4T个tokensLLaMA2训练数据扩充到2万亿tokenLLaMA3的训练数据量更是达到15.0T tokens。 支持模型学习复杂知识大规模数据使模型能够学习到语言中的各种模式、语义关系和知识提升模型的语言理解和生成能力使其能处理复杂自然语言任务。 3.注重数据质量 严格数据过滤开发了一系列数据过滤流水线包含启发式过滤器、NSFW过滤器、语义去重方法、预测数据质量的文本分类器等去除低质量、重复和不相关的数据。 保证数据多样性和准确性通过数据过滤和筛选保留高质量数据使模型学习到准确、有价值的语言知识避免受到错误或低质量数据的干扰。 4.数据分布均衡 多领域数据合理配比在选择训练数据时对不同领域和类型的数据进行了合理配比避免某一领域数据过多或过少使模型能均衡学习不同领域的知识。 提升模型泛化能力数据分布均衡有助于模型在各种任务和领域上都有较好的表现提高模型的泛化能力使其不局限于特定领域或类型的文本。 4、产品性能 LLaMALLaMA 130亿参数模型在大多数基准测试中优于GPT-31750亿参数650亿参数的LLaMA与Chinchilla-70B和PaLM-540B等最佳模型具有竞争力。 LLaMA 2对于使用大模型最重要的上下文长度限制LLaMA 2也翻了一倍在性能和功能上有显著提升具备更好的语言理解和生成能力、多语言处理能力等。 LLaMA 3参数量的大幅提升使其在语言理解、生成以及多模态处理等方面的能力进一步增强能够更好地处理复杂任务提供更准确、更丰富的输出。 LLaMA 3.2作为多模态模型结合了语音交互功能极大地拓展了应用场景和用户交互方式使模型能够更好地理解和处理多种形式的信息输入。 5、应用场景 1.自然语言处理领域 内容生成可用于撰写新闻报道、文案创作、故事编写等。比如媒体机构可以利用LLaMA快速生成新闻稿件的初稿文案工作者能借助它获取创意和灵感生成广告文案、宣传语等。 文本摘要能自动提取长篇文档、文章的关键信息生成简洁准确的摘要帮助用户快速了解文本的核心内容适用于学术文献、商业报告、新闻资讯等各类文本。 机器翻译基于其对多语言的理解和生成能力实现不同语言之间的文本翻译为跨国交流、国际业务等提供语言支持。 问答系统构建智能问答平台回答用户的各种问题如知识问答、生活常识、技术问题等常见于在线客服、智能助手、知识图谱应用等场景。 文本分类对新闻、评论、论文等文本进行分类如区分新闻的类别政治、经济、文化等、判断用户评论的情感倾向正面、负面、中性等。 2.代码开发领域 代码生成根据用户输入的需求描述或功能要求生成相应的代码片段或完整的代码模块辅助开发人员快速实现功能提高开发效率例如生成网站开发中的前端页面代码、后端逻辑代码等。 代码解释与文档生成对现有的代码进行解释说明生成代码文档帮助开发人员理解代码的功能和逻辑特别是在大型项目中有助于新成员快速上手和团队协作。 代码纠错与优化分析代码中的错误和潜在问题并提供修正建议和优化方案提升代码质量和性能。 3.教育领域 智能辅导根据学生的学习情况和问题提供个性化的学习建议和辅导解答学生的疑问帮助学生更好地理解和掌握知识。 教育内容创作协助教师编写教学资料、教案、练习题等教育内容丰富教学资源。 语言学习辅助语言学习者进行口语练习、语法纠错、翻译等提高语言学习效果。 4.医疗领域 病历分析帮助医生快速分析患者的病历信息提取关键症状、诊断结果等辅助医生进行病情判断和诊断。 医疗知识问答为患者或医护人员提供医疗知识解答如常见疾病的症状、治疗方法、药物信息等。 医疗报告生成根据医疗检查数据和诊断结果生成规范的医疗报告减轻医生的书写负担。 5.金融领域 市场分析与预测分析金融市场数据、新闻、公司财报等信息进行市场趋势预测、风险评估等为投资者和金融机构提供决策支持。 金融文本处理处理金融领域的合同、报告、公告等文本提取关键信息进行文本分类和合规性检查等。 智能投资顾问根据用户的财务状况、投资目标等提供个性化的投资建议和资产配置方案。 6.创意艺术领域 艺术创作艺术家可以通过微调LLaMA模型训练它根据特定的风格、主题生成视觉艺术作品的描述或创意甚至可以与图像生成技术结合创作出独特的艺术作品。 音乐创作音乐家可以利用LLaMA生成音乐的旋律、和声、歌词等元素为音乐创作提供灵感和创意。 三、大模型微调 1、‌定义‌ 大模型微调指在‌预训练大模型‌如 GPT、LLaMA 等的基础上使用特定任务或领域的数据集进行进一步训练调整模型参数以优化其在目标场景下的性能而无需从头训练新模型。其核心目的是将通用模型转化为适应特定需求的专用工具实现知识注入与任务对齐‌。 2、‌微调流程与技术原理‌ 预训练模型加载‌ 基于已在大规模通用数据如互联网文本上完成无监督训练的模型继承其通用语言理解能力‌34。‌任务数据适配‌ 使用少量标注数据如情感分析标签、代码生成示例进行有监督训练通过反向传播调整模型参数使其适应目标任务‌34。‌性能优化与收敛‌ 通过损失函数计算预测与标签的偏差迭代优化模型权重提升特定任务准确率‌34。 3、‌微调的核心优势‌ 效率提升‌ 相比从头训练微调显著减少训练时间和算力消耗且能复用预训练模型的通用知识‌56。‌灵活性与适配性‌ 支持垂直领域定制如医疗问答、法律文书生成通过调整数据即可快速适配新场景‌24。 ‌- 性能增强‌ 在特定任务中微调后的模型性能通常优于直接使用预训练模型的零样本Zero-shot或小样本Few-shot方法‌16。 4、‌典型应用场景‌ ‌- 自然语言处理‌情感分析、文本摘要、机器翻译等任务的优化‌23 ‌- 代码生成‌根据企业代码规范调整生成逻辑‌4 ‌- 多模态任务‌结合图像描述数据微调视觉-语言联合模型‌ 5、微调方法和示例 (1) 通用任务优化案例Athene-V2-Chat-72B‌ 模型基础‌基于 ‌Qwen-2.5-72B-Instruct‌ 预训练模型微调目标为提升聊天、数学与编程任务性能‌。‌数据准备‌ 使用高质量对话数据集覆盖多轮对话、数学解题步骤与代码生成示例数据格式为“输入-输出”对如 {“prompt”: “用户问题”, “completion”: “模型回答”}‌。 ‌效果提升‌ 微调后模型在 ‌Chatbot Arena‌ 排行榜排名从第19位上升至第10位推理与代码生成准确率显著提高‌。 (2) 垂直领域适配案例医疗问答系统‌ ‌场景需求‌将通用大模型适配至医疗领域提升术语理解与诊疗建议准确性。‌微调方法‌ ‌数据选择‌采用医学文献、患者问答记录与诊疗指南构建数据集‌‌轻量化调整‌通过 ‌LoRA低秩适配‌ 仅更新部分参数保留预训练模型的通用知识‌。 ‌落地成果‌ 模型对疾病诊断、药物相互作用等专业问题的回答准确率提升 35%且符合医疗合规要求‌。 (3) 企业定制化案例代码生成规范适配‌ 目标‌使模型生成的代码符合企业内部编程规范如命名规则、注释标准。‌实现路径‌ ‌数据构造‌收集企业历史代码库与规范文档生成“需求描述-合规代码”配对数据‌ ‌冻结层微调‌仅调整模型顶层参数减少对通用代码生成能力的干扰‌。‌收益‌ 生成代码的规范符合率从 60% 提升至 92%减少人工审查成本‌
http://www.w-s-a.com/news/86622/

相关文章:

  • 美工培训网站中国建筑网官网手机版
  • 创建网站花钱吗谁能给个网址免费的
  • 宁波教育学会网站建设网站建设价格由什么决定
  • 北京定制网站价格wordpress上传pdf文档
  • 网站建设费税率dz论坛seo设置
  • 推销网站话术商业网站开发与设计
  • 金华网站建设哪个网站做欧洲旅行比较好
  • 东莞市住房和城乡建设局网站trswcm网站建设
  • 郑州做网站企业h5编辑器免费版
  • 加强公司窗口网站建设陕西省外省入陕建筑信息平台
  • 成都网站优化实战大连企业网站建设模板
  • 服务器硬件影响网站速度seo网站推广价格
  • 学院网站开发竞争对手分析买网站送域名
  • 手机网站 jsp个人网页制作成品代码五个页面
  • ppt做长图网站wordpress文章页面图片自动适应
  • 做泌尿科网站价格京东商城网站建设教程
  • 像网站的ppt怎么做的移动app与网站建设的区别
  • 怎么建个人网站网站收录有什么用
  • 广州市医院网站建设广州头条新闻最近一周
  • 广州移动 网站设计中国交通建设监理协网站
  • 甘肃省第八建设集团公司网站wordpress topnews
  • 公司网站建设维保协议wordpress会员可看
  • 合肥百度网站排名优化深圳集团网站开发公司
  • 可以直接打开网站的方法手机回收站
  • 山西免费网站制作中天建设集团有限公司第九建设公司
  • 好的网站有哪些企业微信开发者工具
  • 网站通栏代码老外做的中国汉字网站
  • 东莞公司建站哪个更便宜wordpress宝塔伪静态
  • 六安网站建设价格做网站好吗
  • 中小企业网站建设咨询湖南省邵阳建设局网站