About

AI Infra Engineer / Cloud Native Enthusiast
ZZC

子辰 (ZZC / Charles)

AI Infra @ 阿里云 · 杭州


👋 关于我

我是一名 AI 基础设施工程师,目前在阿里云从事 AI Infra 相关工作。

专注于大模型推理系统的性能优化,包括:

  • 推理引擎架构(SGLang、vLLM、TensorRT-LLM)
  • 注意力机制优化(PagedAttention、FlashAttention、RadixAttention)
  • 显存管理与 KV Cache 优化
  • 稀疏化技术(MoE、Speculative Decoding)
  • GPU Kernel 优化(Triton、CUDA)

工作之余,我喜欢通过写博客来整理技术体系、分享学习心得。同时也是一个摄影和旅行爱好者。

🛠️ 技术栈

AI/ML Infra

SGLang vLLM FlashInfer TensorRT-LLM CUDA Triton MoE KV Cache FlashAttention

开发语言

Python Go C++ Rust

工具 & 平台

Docker Kubernetes Linux Git LangGraph MCP

📅 经历

2025.07 - 至今
阿里云 · AI Infra 工程师
从事大模型推理系统优化相关工作
2025.07 - 2026.05
技术博客 · 持续更新
发布多篇 AI Infra 领域深度技术文章,涵盖推理引擎对比、FlashAttention、PagedAttention、MoE 等主题

📊 博客统计

33 篇文章 · 覆盖 39 个技术主题

最近更新时间:2026-06-02