入门文章系列:
在探讨大语言模型(LLM)的性能时,一个流传已久的说法是:“解码过程中的 Attention 操作是访存密集型(Memory Bound)的。” 这个观点深入人心,以至于许多优化讨论都以此为前提。然而,随着模型架构的演进和解码策略的创新,这一迷思正在被打破。
https://shinezyy.github.io/ArchShineZ/post/decoding-myth/
在探讨大语言模型(LLM)的性能时,一个流传已久的说法是:“解码过程中的 Attention 操作是访存密集型(Memory Bound)的。” 这个观点深入人心,以至于许多优化讨论都以此为前提。然而,随着模型架构的演进和解码策略的创新,这一迷思正在被打破。
https://shinezyy.github.io/ArchShineZ/post/decoding-myth/