结合代码理解各种注意力机制(三):分组注意力机制GQA
在上一篇文章中结合代码理解各种注意力机制(二):多头注意力机制中,我们实现了多头注意力机制,而实现方式是通过封装SA类为MHA类,从而实现多个注意力头。
在MAH下,每个q都会对应一组k和v。而分组注意力机制将会对Q进行分组,分成G组,而位于同一组的Q将会共享K和V。
如下图所示:从左至右依次是:MHA(前文已经介绍过), GQA(本文将要介绍), MQA(GQA的一种特殊情况)和MHA(之后将会介绍)
图片来源:https://doi.org/10.48550/arXiv.2405.04434
结合代码理解各种注意力机制(三):分组注意力机制GQA
https://abigail61.github.io/2025/01/30/draft/结合代码理解各种注意力机制(三):分组注意力机制/