成武城乡住房建设局网站,淄博的大型网站建设,大连最新消息今天,成都代理注册公司电话Note
LLama2的注意力机制使用了GQA。三种机制的图如下#xff1a;
MHA机制#xff08;Multi-head Attention#xff09;
MHA#xff08;Multi-head Attention#xff09;是标准的多头注意力机制#xff0c;包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 V…Note
LLama2的注意力机制使用了GQA。三种机制的图如下
MHA机制Multi-head Attention
MHAMulti-head Attention是标准的多头注意力机制包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享
MQA机制Multi-Query Attention
MQAMulti-Query AttentionFast Transformer Decoding: One Write-Head is All You Need是多查询注意力的一种变体也是用于自回归解码的一种注意力机制。与MHA不同的MQA 让所有的头之间共享同一份 Key 和 Value 矩阵每个头只单独保留了一份 Query 参数从而大大减少 Key 和 Value 矩阵的参数量。
GQA机制Grouped-Query Attention
GQAGrouped-Query AttentionGQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints是分组查询注意力GQA将查询头分成G组每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组因此具有单个Key 和 Value等效于MQA。若GQA-H具有与头数相等的组则其等效于MHA。GQA介于MHA和MQA之间。GQA机制多头共用 KV Cache。
Reference
[1] 一文通透各种注意力从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA [2] Transformer系列注意力机制的优化MQA和GQA原理简述 [3] Navigating the Attention Landscape: MHA, MQA, and GQA Decoded