GQA 分组查询注意力详解
在模型质量与推理速度之间找到最佳平衡
摘要:GQA(Grouped Query Attention,分组查询注意力)是一种介于多头注意力(MHA)和多查询注意力(MQA)之间的注意力机制,由 Google 在 2023 年提出。GQA 通过将查询头分组,每组共享一个键值头,在保持模型质量的同时显著提升了推理速度。本文详细解析 GQA 的核心原理、实现方法及实际应用。
一、背景与动机
1.1 Transformer...
📅 March 17, 2026
· AI InfraLLM推理注意力机制