当前位置：首页 > news >正文

上传文章的网站百度seo关键词

news 2026/4/8 22:09:45

上传文章的网站,百度seo关键词,游戏开发大亨高分攻略,静态网页有哪些网站一、结论写在前面论文提出了MoE语言模型的DeepSeekMoE架构#xff0c;目的是实现终极的专家专业化(expert specialization)。通过细粒度的专家分割和共享专家隔离#xff0c;DeepSeekMoE相比主流的MoE架构实现了显著更高的专家专业化和性能。从较小的2B参数规模开始#x… 一、结论写在前面论文提出了MoE语言模型的DeepSeekMoE架构目的是实现终极的专家专业化(expert specialization)。通过细粒度的专家分割和共享专家隔离DeepSeekMoE相比主流的MoE架构实现了显著更高的专家专业化和性能。从较小的2B参数规模开始论文验证了DeepSeekMoE的优势展示了其接近MoE模型上限性能的能力。此外论文证明DeepSeekMoE具有比GShard更高水平的专家特化。放大到16B参数规模论文在2T标记上训练DeepSeekMoE 16B并展示了其与DeepSeek 7B和LLaMA2 7B可比的卓越性能仅需要大约40%的计算量。另外论文进行了监督微调用于对齐基于DeepSeekMoE 16B构建了一个MoE聊天模型进一步展示了其适应性和通用性。此外论文初步探索以将DeepSeekMoE放大到145B参数DeepSeekMoE 145B相对于GShard架构仍保持实质性优势并展示了与DeepSeek 67B可比的性能仅使用28.5%(可能甚至18.2%)的计算量。论文公开了了DeepSeekMoE 16B的模型checkpoint它可以在40GB内存的单GPU上部署。 Figure 1 | DeepSeekMoE 16B与开源模型在Open LLM Leaderboard上的比较。红色虚线是从除DeepSeekMoE 16B之外的所有模型的数据点线性拟合得到的。DeepSeekMoE 16B始终以很大的优势胜过具有类似激活参数数量的模型并在性能上与LLaMA2 7B相媲美后者的激活参数数量大约是其2.5倍二、论文的简单介绍 2.1 论文的背景最近的研究和实践通过充分的可用训练数据经验性地证明扩大语言模型的参数和计算预算可以获得显著更强的模型。然而必须承认的是将模型扩展到极大规模的努力也与极高的计算成本相关联。考虑到成本混合专家(Mixture-of-ExpertsMoE)架构已成为一种流行的解决方案。它可以实现参数扩展同时将计算成本保持在适度水平。尽管MoE架构展示出有前景的潜力但现有MoE架构可能存在知识杂交(f knowledge hybridity )和知识冗余(knowledge redundancy)的问题这限制了专家专业化即每个专家获得非重叠和专注的知识。传统的MoE架构用MoE层代替Transformer中的前馈网络(Feed-Forward NetworksFFN)。每个MoE层由多个专家组成每个在结构上与标准FFN相同每个token分配给一个或两个专家。这种架构体现出两个潜在问题: (1)知识杂交现有的MoE实践通常采用有限数量的专家(例如8或16)因此分配给特定专家的标记可能会涵盖不同的知识。因此指定的专家将倾向于在其参数中汇集不同类型的知识这些知识很难同时利用。 (2)知识冗余分配给不同专家的token可能需要共同知识。因此多个专家可能会在各自的参数中收敛到共享知识的获取从而导致专家参数中的冗余。这些问题共同阻碍了现有MoE实践中的专家专业化使其无法达到MoE模型的理论上限性能。 2.2 论文的方案 Figure 2 | DeepSeekMoE的示意图。子图a展示了具有传统top-2路由策略的MoE层。子图b说明了精细的专家细分策略。随后子图c展示了共享专家隔离策略的集成构成了完整的DeepSeekMoE架构。值得注意的是在这三种架构中专家参数和计算成本保持不变 DeepSeek MoE设计上述结构的前提在于假设特定专家能可以覆某种领域知识。专家的细粒度切分可以避免一个专家覆盖太多领域把知识学杂了共享专家可以让一些公共知识每次都参与计算。同时期国外开源的Mistral of Experts也放了技术报告它是完全照着GPT-4解密报告复现的MoE模型结构就是经典的GShard方式。技术报告里的Sec. 5 Routing analysis展示很多路由工作的特征这些都是非常新鲜的一手资料。有一些结论很有趣 Mixtral of Experts 路由规则与文本的语义主题无关这意味着专家并不专门精通某一领域的知识。路由规则展示出了一定的语法特性例如某些关键词经常被分配给同一位专家。路由规则还展示了位置的局部性相邻的token通常被路由到同一位专家这表明token在句子中的位置与路由选择有关。结论1是比较颠覆传统认知的又给了公众号做标题党一次机会。混合专家系统里根本没专家开源MoE模型论文引网友热议那么也就是说按照Mistral报告的观察DeepSeek-MoE设计的动机可能不太成立。我觉得DeepSeek开发者可以参考Mistral的Sec 5做实验看看结论是否一致。为应对上述两个潜在问题论文提出了DeepSeekMoE这是一种创新的MoE架构专门设计用于实现终极专家专业化。架构包含两大主要策略: 细粒度专家细分在专家数量有限的情况下分配给特定专家的标记更有可能涵盖各种类型的知识。因此指定的专家将意图在其参数中学习非常不同类型的知识并且它们很难同时被利用。然而如果每个标记可以路由到更多的专家不同的知识将有可能分解并在不同的专家中学到。在这种情况下每个专家仍然可以保持高水平的专业化有助于在专家之间实现更专注的知识分布。为了实现这一目标在保持一致的专家参数数量和计算成本的同时通过更细粒度地分割专家。更细致的专家分割使得激活的专家组合更加灵活和适应。具体而言在图 2(a) 中显示的典型 MoE 架构之上我们通过将每个专家 FFN 的中间隐藏维度减小到其原始大小的 1/m 倍来将每个专家细分为 m 个较小的专家。由于每个专家变得较小相应地我们也增加激活的专家数量到 m 倍以保持相同的计算成本如图 2(b) 所示。从组合的角度看细粒度专家分割策略极大地增强了激活专家的组合灵活性。举例来说考虑 N 16 的情况。典型的 top-2 路由策略可以产生 16 2 120 种可能的组合。相比之下如果每个专家分为 4 个较小的专家细粒度的路由策略可以产生 64 8 4,426,165,368 种潜在的组合。组合灵活性的激增增强了实现更准确和有针对性的知识获取的潜力。共享专家隔离在传统的路由策略中分配给不同专家的标记可能需要一些共同的知识或信息。因此多个专家可能会在各自的参数中收敛于获取共享知识从而导致专家参数的冗余。然而如果有专门负责捕捉和 cons共享知识的专业专家跨不同上下文的参数冗余将得到缓解。这种冗余的减轻将有助于构建更具参数效率的模型并拥有更专业化的专家。为实现这一目标除了精细的专家细分策略之外进一步隔离个专家作为共享专家。无论路由模块如何每个标记都将被确定性地分配给这些共享专家。为了保持恒定的计算成本其他路由专家中激活的专家的数量将减少如图2(c)所示。负载平衡考虑自动学习的路由策略可能会遇到负载不平衡的问题表现为两个显著的缺陷。首先存在路由崩溃的风险即模型始终只选择少数专家阻止其他专家充分训练。其次如果专家分布在多个设备上负载不平衡可能会加剧计算瓶颈。专家级平衡损失为了缓解路由崩溃的风险论文还采用了专家级平衡损失。设备级平衡损失除了专家级平衡损失外论文引入了设备级平衡损失。当旨在缓解计算瓶颈时就不必在专家级别强制执行严格的平衡约束因为对负载平衡的过度约束会损害模型性能。相反论文的主要目标是确保设备之间的平衡计算 2.3 论文的效果从一个仅有2B参数的适度规模开始验证了DeepSeekMoE架构的优势。在跨越多种任务的12个零试验或少试验基准测试中进行评估。实证结果表明DeepSeekMoE 2B大大超过了GShard 2B甚至匹配了GShard 2.9B一个更大的MoE模型具有1.5倍的专家参数和计算量。值得注意的是DeepSeekMoE 2B的性能几乎接近具有相等参数数量的密集对应物这为MoE语言模型设定了严格的上限。为了获得更深入的见解对DeepSeekMoE进行了精心的消融研究和专家专业化分析。这些研究验证了细粒度专家细分和共享专家隔离的有效性并提供了支持DeepSeekMoE可以实现高水平专家专业化的经验证据。将模型参数扩大到16B并在包含2T个标记的大规模语料上训练DeepSeekMoE 16B。评估结果显示与仅使用约40%的计算量DeepSeekMoE 16B达到与在相同2T语料上训练的密集模型DeepSeek 7B相当的性能。还将DeepSeekMoE与开源模型进行了比较评估结果表明DeepSeekMoE 16B始终以大幅度超过参数数量相近的模型并与LLaMA2 7B的性能相当后者的激活参数数约为前者的2.5倍。图1展示了在Open LLM Leaderboard1上的评估结果。另外论文进行了监督微调(SFT)用于对齐将模型转换为聊天模型。评估结果显示在聊天设置中DeepSeekMoE Chat 16B也取得了与DeepSeek Chat 7B和LLaMA2 SFT 7B相当的性能。这些结果鼓舞我们进一步进行扩展DeepSeekMoE到145B的初步尝试。实验结果仍然一致验证了其相对于GShard架构的重大优势。此外它显示了与DeepSeek 67B相当的性能仅使用28.5%(可能甚至只有18.2%)的计算量。 Table 1 | 验证实验的评估结果。粗体字表示最佳结果。与其他MoE架构相比DeepSeekMoE表现出明显的性能优势 Table 2 | DeepSeekMoE、更大的GShard模型和更大的dense模型之间的比较。在“专家”一行中表示个共享专家和个路由专家。在“激活专家”一行中表示个激活的共享专家和个激活的路由专家。DeepSeekMoE在性能上与包含1.5倍专家参数和计算的GShard模型相媲美。此外DeepSeekMoE几乎接近具有16倍FFN参数的dense模型的性能这在模型容量方面为MoE模型设定了上限 Figure 3 | DeepSeekMoE的消融研究。为清晰展示性能经过归一化处理。所有比较的模型具有相同数量的参数和激活参数。我们可以看到精细的专家细分和共享专家隔离都有助于更强大的整体性能 Figure 4 | 关于禁用顶级路由专家比例的Pile损失。值得注意的是DeepSeekMoE对禁用顶级路由专家比例的敏感性更大表明DeepSeekMoE中路由专家之间的冗余较低 Table 3 | DeepSeek 7B和DeepSeekMoE 16B之间的比较。粗体字表示最佳或接近最佳。仅占40.5%的计算量DeepSeekMoE 16B在性能上与DeepSeek 7B相媲美 Table 4 | LLaMA2 7B和DeepSeekMoE 16B之间的比较。仅占39.6%的计算量DeepSeekMoE 16B在大多数基准测试上胜过LLaMA2 7B Table 5 | LLaMA2 SFT 7B、DeepSeek Chat 7B和DeepSeekMoE Chat 16B之间的比较这三个模型都在相同的SFT数据上进行了微调。与两个7B dense模型相比DeepSeekMoE Chat 16B在大多数基准测试上仍然在仅占40%的计算量下达到相当或更好的性能 Table 6 | DeepSeek 67BDense和约140B总参数规模的MoE模型之间的比较。在“专家”和“激活专家”一行中分别表示个共享专家和个路由专家。粗体字表示最佳或接近最佳的性能最后一列除外。DeepSeekMoE 145B甚至仅有一半激活专家参数的DeepSeekMoE 142B在性能上大大优于GShard 137B。此外以28.5%的计算量DeepSeekMoE 145B在性能上与DeepSeek 67B相媲美论文贡献总结如下: 架构创新。我提出了DeepSeekMoE这是一种创新性的MoE架构旨在实现终极的专家特化它采用细粒度专家分割和共享专家隔离两种主要策略。经验证明进行了广泛的实验来经验证实DeepSeekMoE架构的有效性。实验结果验证了DeepSeekMoE 2B中的高水平专家特化并表明DeepSeekMoE 2B几乎可以接近MoE模型的上限性能。可扩展性。将DeepSeekMoE扩大到训练一个160亿参数的模型并展示仅使用约40%的计算量DeepSeekMoE 16B就达到了DeepSeek 7B和LLaMA2 7B的可比性能。我们还进行了将DeepSeekMoE扩大到1450亿的参数的初步尝试突出了其相对于GShard架构的持续优势并展示了与DeepSeek 67B可比的性能。 MoE的对齐。成功地对DeepSeekMoE 16B进行了监督微调来创建对齐的聊天模型展示了DeepSeekMoE 16B的适应性和通用性。公开发布。向公众发布了DeepSeekMoE 16B的模型checkpoint。值得注意的是这个模型可以在不需要量化的情况下在具有40GB内存的单GPU上部署。论文标题DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models 论文链接https://arxiv.org/pdf/2401.06066.pdf

查看全文

http://www.w-s-a.com/news/391436/