子辰的博客 | ZZC's Blog

NVFP4 KV Cache量化：Blackwell架构上的大模型推理内存革命

NVFP4 KV Cache量化：Blackwell架构上的大模型推理内存革命随着大模型上下文长度不断突破百万token，KV Cache已成为推理服务的主要内存瓶颈。NVIDIA在Blackwell架构中引入的NVFP4量化技术，通过将KV Cache压缩至4-bit精度，实现了内存占用减半的同时保持极低的精度损失，为长上下文推理带来了革命性的性能提升。在当今AI基础设施领域，推理...

llm-d深度解析：Kubernetes原生分布式LLM推理服务的新架构

llm-d深度解析：Kubernetes原生分布式LLM推理服务的新架构重要术语说明在深入探讨llm-d架构之前，让我们先明确几个关键术语： Prefill：LLM推理的第一阶段，处理完整的输入序列并计算所有token的KV cache Decode：LLM推理的第二阶段，基于已计算的KV cache逐步生成输出token KV Cache：Key-Value Cac...

MoE模型与推测解码的协同优化：2025年LLM推理加速的新前沿

MoE模型与推测解码的协同优化：2025年LLM推理加速的新前沿引言在2025年的AI基础设施领域，一个颠覆性的发现正在重塑我们对大型语言模型（LLM）推理优化的认知：稀疏专家混合（MoE）模型反而比密集模型更适合推测解码（Speculative Decoding）。这一发现彻底颠覆了传统的认知——过去我们认为MoE模型由于专家切换带来的数据移动开销，会降低推测解码的效果。这...

SpecForge 深度解析：SGLang 团队开源的 EAGLE-3 推测解码训练框架

SpecForge 深度解析：SGLang 团队开源的 EAGLE-3 推测解码训练框架引言 2025年7月，LMSYS团队开源了SpecForge——一个专门为EAGLE-3推测解码方法设计的训练框架。这一工具链的出现标志着推测解码技术从实验室研究正式迈向生产环境部署的重要里程碑。随着大语言模型（LLM）参数规模的持续增长，推理延迟和计算成本已成为AI应用落地的主要瓶颈。推测解码（S...

vLLM Model Runner V2 架构重构：GPU-native 与零同步设计解析

vLLM Model Runner V2 架构重构：GPU-native 与零同步设计解析 vLLM V0.20 版本引入了 Model Runner V2（MRV2），这是 vLLM 项目历史上一次重要的架构级重构。MRV2 不仅在 GB200 平台上实现了 56% 的吞吐量提升，更重要的是它从根本上解决了 vLLM V1 版本中积累的技术债务，为未来的性能优化奠定了坚实基础。本文将深入...

FlashInfer Sorting-Free Sampling：LLM推理采样性能突破的算法创新

FlashInfer Sorting-Free Sampling：LLM推理采样性能突破的算法创新在人工智能技术飞速发展的今天，大规模语言模型（LLM）已经成为众多应用的核心组件。从智能客服到内容创作，从代码生成到知识问答，LLM的应用场景日益广泛。然而，随着模型规模的不断扩大，推理效率问题也日益突出，成为制约LLM广泛应用的关键瓶颈之一。采样作为LLM推理过程中的关键步骤，其性...

vLLM V1 引擎架构重构：从单进程到多进程 EngineCore 的演进

vLLM V1 引擎架构重构：从单进程到多进程 EngineCore 的演进在人工智能基础设施领域，大语言模型（LLM）推理引擎的性能和效率直接影响着整个 AI 应用的成本和用户体验。作为开源社区中最受欢迎的 LLM 推理引擎之一，vLLM 的每一次架构演进都备受关注。本文将深入剖析 vLLM V1 版本的重大架构重构，帮助读者理解其背后的设计哲学和技术实现。引言 vLLM 作为当...

FlashInfer-Bench：AI 自动生成 GPU Kernel 的生产级部署实践

FlashInfer-Bench：AI 自动生成 GPU Kernel 的生产级部署实践引言在大模型推理优化领域，GPU Kernel 的手工优化一直是性能提升的关键瓶颈。传统的 CUDA 编程需要深厚的硬件知识和丰富的实践经验，而随着模型架构的快速迭代和新硬件的不断涌现，人工优化的速度已无法满足生产需求。FlashInfer-Bench 的出现标志着一个新时代的到来——AI 不...

QuantSpec: 自推测解码与分层量化KV Cache的长上下文推理加速方案

QuantSpec: 自推测解码与分层量化KV Cache的长上下文推理加速方案引言随着大语言模型（LLM）在长文本处理、文档分析、代码理解等领域的广泛应用，长上下文推理已成为AI Infra工程师面临的重大挑战。传统的自回归解码方式在处理长序列时面临严重的计算瓶颈，其中KV Cache的内存占用和访问延迟成为制约性能的关键因素。长上下文需求的增长趋势：近年来，LLM的上...

DeepSeek V3.2 稀疏注意力深度解析：从O(n²)到O(n)的长上下文革命随着大语言模型在长文档处理、知识库问答、代码生成、法律文书分析、医疗记录理解、金融报告解读、学术论文综述等场景的应用日益广泛，传统的密集注意力机制面临着计算复杂度O(n²)的严峻瓶颈。当上下文长度达到数万甚至数十万token时，标准Transformer架构的内存消耗和计算开销变得难以承受，严重制约了实际...

ZZC's Blog