ZZC's Blog

Thinking will not overcome fear but action will.
GQA 分组查询注意力详解

GQA 分组查询注意力详解

在模型质量与推理速度之间找到最佳平衡

摘要:GQA(Grouped Query Attention,分组查询注意力)是一种介于多头注意力(MHA)和多查询注意力(MQA)之间的注意力机制,由 Google 在 2023 年提出。GQA 通过将查询头分组,每组共享一个键值头,在保持模型质量的同时显著提升了推理速度。本文详细解析 GQA 的核心原理、实现方法及实际应用。 一、背景与动机 1.1 Transformer...

FlashAttention 原理与实现详解

FlashAttention 原理与实现详解

IO 感知的快速注意力机制

摘要:FlashAttention 是由 Tri Dao 等人提出的快速且内存高效的精确注意力算法。它通过 IO 感知的设计,显著减少了 GPU 高带宽内存(HBM)与片上 SRAM 之间的数据读写次数,实现了比传统注意力机制更快的训练和推理速度。本文详细解析 FlashAttention 的核心原理、算法实现及后续演进。 一、核心问题:为什么需要 FlashAttention...

2025-2026 视频生成研究进展调研

2025-2026 视频生成研究进展调研

从推理加速到长视频生成的技术突破

摘要:视频生成是 AI 领域最前沿的方向之一。本文系统调研了 2025-2026 年视频生成领域的最新进展,涵盖推理加速、量化优化、长视频生成、架构创新等方向,并对比了主流商业模型的性能与价格。 ⚠️ 注意:本文商业模型对比数据收集于 2025 年 7 月,距今已有一定时间,价格和模型版本可能已发生变化。建议以各平台官网最新数据为准。 一、学术论文进展 1.1 推理加速...

推荐算法行为序列建模

推荐算法行为序列建模

DIN、DIEN 与 BST 等序列建模方法

摘要:本文介绍推荐系统中用户行为序列建模的核心方法,包括 DIN(Deep Interest Network)、DIEN(Deep Interest Evolution Network)、BST(Behavior Sequence Transformer)等。 一、为什么需要行为序列建模? 用户的兴趣不是一成不变的,而是随着时间不断演化的。传统的推荐模型往往将用户特征做简单的...

推荐算法特征交叉技术

推荐算法特征交叉技术

FM、DCN、PPNet 与特征交互方法

摘要:本文介绍推荐系统中特征交叉的核心技术,包括 FM 因式分解机、DCN 深度交叉网络、LHUC(PPNet)、SENet 与 Bilinear 交叉等。 一、为什么需要特征交叉? 线性模型中,特征之间是独立的,无法捕捉交互关系。例如: “用户是男性” + “物品是美妆” → 可能不买 “用户是女性” + “物品是美妆” → 很可能买 单个特征无法表达这种组...

推荐算法排序模型

推荐算法排序模型

多目标建模、粗排优化与特征处理实践

摘要:本文介绍推荐系统中排序阶段的核心模型与策略,包括多目标建模(MMoE)、负样本降采样、预估分数校准、粗排三塔模型等关键技术。内容基于实际项目经验整理。 一、排序阶段在推荐系统中的位置 推荐系统通常分为三个阶段:召回 → 粗排 → 精排。 海量物品 → 召回(千/万级) → 粗排(百级) → 精排(十级) → 策略层 → 最终展示 召回:从百万级候选池中快速筛...

推荐算法召回策略

推荐算法召回策略

双塔模型、负样本构建与 Deep Retrieval 实践

摘要:本文介绍推荐系统中召回阶段的核心技术,包括双塔模型(DSSM)、正负样本构建策略、负采样技巧、线上召回架构、Deep Retrieval 等。 一、召回阶段的作用 推荐系统的召回阶段负责从百万级候选池中快速筛选出千级候选,送入后续的粗排和精排。 百万级物品 → 召回策略(多路) → 千级候选 → 粗排 → 精排 召回的核心要求是:高召回率 + 低延迟,宁可多放几个...

基础光流法介绍

基础光流法介绍

基于梯度的方法

本文内容原是写毕业论文相关工作时整理的内容,但发现后面并不需要在这里进行详细公式说明,又不忍直接删掉,就让它们换个形式保存在这里吧。 ⚠️ 注意:本文写于 2022 年,内容较为基础。 光流法基本假设 光流法具有两个基本假设: 相邻帧的亮度恒定不变,即物体在视频中运动时,相邻帧的亮度不发生明显变化; 时间连续或微小运动,即相邻帧之间物体...

数据结构整理

数据结构整理

刷题的必备知识

本文数据结构的汇总表格来自于 LeetCode Cookbook。在这里我进行了更进一步的整理,预计将汇总各种数据结构在主流语言中的高效实现方式。 ⚠️ 注意:本文写于 2022 年,内容较为基础,部分信息可能已过时。 数据结构 变种 顺序线性表:向量 Vector   ...

互联网工作分享

互联网工作分享

Have a Good Job

本文是从 GitHub 上进行的一些项目源项目记录,仅供自己参考。 ⚠️ 注意:本文写于 2022 年,部分链接可能已失效。996.ICU 等项目已被封禁,GitHub 仓库可能已不可访问。 WorkingTime(已于 2021.10.28 被全面封禁,停止更新) 收集记录各公司工作时间和福利 996.ICU 工作 996,生病 ICU 955.WLB 955 公...