注意力机制

围绕 Transformer 内部机制、注意力变体、KV 缓存行为和跨层信息流的研究。

研究分类

围绕 Transformer 内部机制、注意力变体、KV 缓存行为和跨层信息流的研究。

4论文

8资源链接

2026.06最新月份

4 篇论文

注意力架构

2026.06 注意力架构

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

该论文提出 Lookahead Sparse Attention，使用独立训练的神经记忆索引器预测未来上下文需求，仅在 GPU 上保留查询关键的 KV 分块。FlashMemory 将物理 KV 缓存占用平均压缩至完整上下文注意力的 13.5%，同时保持或略微提升长上下文准确率。

论文代码 Hugging Face

2026.05 注意力架构

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

该论文提出 Group-Query Latent Attention，对 MLA 做最小修改，使同一组训练权重同时暴露 MQA-absorb 和 GQA 两条解码路径。运行时可根据目标硬件选择路径，无需重新训练或自定义 kernel，从而兼顾 H100 式压缩解码、面向 H20 的 GQA 加 MTP，以及最高 8 路零冗余张量并行。

论文代码

2026.03 注意力架构

Attention Residuals

该工作用对前序层输出的注意力替代固定残差累积，使模型能够根据输入动态聚合不同深度的信息，并缓解 PreNorm 带来的表征稀释问题。论文还提出 Block AttnRes，在更低显存与通信开销下支持可扩展训练。

论文项目

2019.11 注意力架构

Fast Transformer Decoding: One Write-Head is All You Need

该论文提出 multi-query attention，在不同注意力头之间共享 keys 和 values，以降低 Transformer 增量解码中的内存带宽开销。该变体显著提升解码速度，同时相较多头注意力基线仅带来轻微质量下降。

论文