异步连续批处理深度解析:从 CUDA Stream 到双缓冲机制
异步连续批处理深度解析:从 CUDA Stream 到双缓冲机制
引言
在大语言模型(LLM)推理优化领域,连续批处理(Continuous Batching)已经成为解决静态批处理 padding 浪费问题的标准方案。然而,传统的连续批处理采用同步模式,CPU 和 GPU 轮流工作,导致显著的性能浪费。最新研究和实践表明,通过异步连续批处理技术,可以将 CPU 的批次准备工作与 G...
📅 May 16, 2026
· AI InfraLLM推理CUDA