大模型应用:矩阵乘加(GEMM)全解析:大模型算力消耗的逻辑与优化.68
一、引言 在大模型的训练与推理过程中,我们应该经常会看到GEMM,General Matrix Multiply and Accumulate,就是矩阵乘加运算,GEMM构成了计算负载的绝对核心其计算量通常占整个 Transformer 架构的 90% 以上。无论是注意力机制中的 QKV 投影、多头融合,还是前馈网

