子辰 (ZZC / Charles)
AI Infra @ 阿里云 · 杭州
👋 关于我
我是一名 AI 基础设施工程师,目前在阿里云从事 AI Infra 相关工作。
专注于大模型推理系统的性能优化,包括:
- 推理引擎架构(SGLang、vLLM、TensorRT-LLM)
- 注意力机制优化(PagedAttention、FlashAttention、RadixAttention)
- 显存管理与 KV Cache 优化
- 稀疏化技术(MoE、Speculative Decoding)
- GPU Kernel 优化(Triton、CUDA)
工作之余,我喜欢通过写博客来整理技术体系、分享学习心得。同时也是一个摄影和旅行爱好者。
🛠️ 技术栈
AI/ML Infra
SGLang
vLLM
FlashInfer
TensorRT-LLM
CUDA
Triton
MoE
KV Cache
FlashAttention
工具 & 平台
Docker
Kubernetes
Linux
Git
LangGraph
MCP
📅 经历
2025.07 - 至今
阿里云 · AI Infra 工程师
从事大模型推理系统优化相关工作
2025.07 - 2026.05
技术博客 · 持续更新
发布多篇 AI Infra 领域深度技术文章,涵盖推理引擎对比、FlashAttention、PagedAttention、MoE 等主题
📊 博客统计
共 33 篇文章
· 覆盖 39 个技术主题
最近更新时间:2026-06-02