ZZC's Blog

Thinking will not overcome fear but action will.

PagedAttention 与 vLLM 内存管理

大语言模型推理系统的内存革命

摘要:PagedAttention 是 vLLM 推理系统的核心技术,灵感来自操作系统的虚拟内存分页机制。它将连续的 KV 缓存分割成固定大小的非连续块,实现了近零浪费的内存利用率和 2-4 倍的吞吐量提升。本文深入解析 PagedAttention 的设计原理、实现细节及实际应用效果。 一、背景与动机 1.1 LLM 推理的内存挑战 大语言模型(LLM)的高吞吐量服务需要...

GQA 分组查询注意力详解

在模型质量与推理速度之间找到最佳平衡

摘要:GQA(Grouped Query Attention,分组查询注意力)是一种介于多头注意力(MHA)和多查询注意力(MQA)之间的注意力机制,由 Google 在 2023 年提出。GQA 通过将查询头分组,每组共享一个键值头,在保持模型质量的同时显著提升了推理速度。本文详细解析 GQA 的核心原理、实现方法及实际应用。 一、背景与动机 1.1 Transformer...

FlashAttention 原理与实现详解

IO 感知的快速注意力机制

摘要:FlashAttention 是由 Tri Dao 等人提出的快速且内存高效的精确注意力算法。它通过 IO 感知的设计,显著减少了 GPU 高带宽内存(HBM)与片上 SRAM 之间的数据读写次数,实现了比传统注意力机制更快的训练和推理速度。本文详细解析 FlashAttention 的核心原理、算法实现及后续演进。 一、核心问题:为什么需要 FlashAttention...

2025-2026 视频生成研究进展调研

从推理加速到长视频生成的技术突破

摘要:视频生成是 AI 领域最前沿的方向之一。本文系统调研了 2025-2026 年视频生成领域的最新进展,涵盖推理加速、量化优化、长视频生成、架构创新等方向,并对比了主流商业模型的性能与价格。 一、学术论文进展 1.1 推理加速方向 视频生成模型的计算量巨大,推理加速成为研究热点: 论文 核心贡献 时间 ...

基础光流法介绍

基于梯度的方法

本文内容原是写毕业论文相关工作时整理的内容,但发现后面并不需要在这里进行详细公式说明,又不忍直接删掉,就让它们换个形式保存在这里吧。 光流法基本假设 光流法具有两个基本假设: 相邻帧的亮度恒定不变,即物体在视频中运动时,相邻帧的亮度不发生明显变化; 时间连续或微小运动,即相邻帧之间物体的位置变化并不剧烈。 基于这两个假设,我们可以得...

数据结构整理

刷题的必备知识

本文数据结构的汇总表格来自于 LeetCode Cookbook。在这里我进行了更进一步的整理,预计将汇总各种数据结构在主流语言中的高效实现方式。 数据结构 变种 顺序线性表:向量 Vector   单链表Singly Linked List ...

互联网工作分享

Have a Good Job

本文是从 GitHub 上进行的一些项目源项目记录,仅供自己参考。 WorkingTime(已于 2021.10.28 被全面封禁,停止更新) 收集记录各公司工作时间和福利 996.ICU 工作 996,生病 ICU 955.WLB 955 公司白名单,旨在让更多的人逃离 996,加入 955 的行列。 996.LIST 此 repo 为 996 和 955 的匿名投票列...

树莓派4B使用经验

Python + OpenCV

因为研究生选的时边缘计算方向,最近搞毕设也就是类似的课题,老师给了我块树莓派 4B+,让我在上面跑一个光流法的运动检测。于是本文就记录下我在使用树莓派,配置环境和运行代码等过程中遇到的问题。 系统选择与安装 awesome raspberry pi这个 github 项目中介绍了几乎所有树莓派系统,可供参考,这里我仅仅讨论我尝试过的树莓派系统: 官方 32 位系统,官方...

推荐算法行为序列建模


推荐算法特征交叉

Factorized Machine (FM) 因式分解机 线性模型中只是特征的线性组合,没有特征之间的交互 二阶特征交叉,参数量是平方级别,为了降低参数量,使用矩阵的低秩分解,就得到FM模型,只有kd个参数 现在已经被淘汰 DCN 深度交叉网络 用于代替简单的全连接网络 LHUC (PPNet) 只能用于精排 SENet 和 Bilinear 交叉 SENet对特征做