Awesome LLM Research Collections
  • Home
  • Papers
    • Attention
    • LLMs
    • Multimodal LLMs
    • Embeddings
    • SFT
    • Training
    • Reinforcement Learning
    • Agents Application
    • Vision
    • Auto-Prompt
  • Notes
  • Blogs
  • English
  • 中文

注意力机制

围绕 Transformer 内部机制、注意力变体、KV 缓存行为和跨层信息流的研究。
English

研究分类

围绕 Transformer 内部机制、注意力变体、KV 缓存行为和跨层信息流的研究。

4论文
8资源链接
2026.06最新月份
注意力架构

4 篇论文

注意力架构

2026.06 注意力架构

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

该论文提出 Lookahead Sparse Attention,使用独立训练的神经记忆索引器预测未来上下文需求,仅在 GPU 上保留查询关键的 KV 分块。FlashMemory 将物理 KV 缓存占用平均压缩至完整上下文注意力的 13.5%,同时保持或略微提升长上下文准确率。

论文 代码 Hugging Face
2026.05 注意力架构

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

该论文提出 Group-Query Latent Attention,对 MLA 做最小修改,使同一组训练权重同时暴露 MQA-absorb 和 GQA 两条解码路径。运行时可根据目标硬件选择路径,无需重新训练或自定义 kernel,从而兼顾 H100 式压缩解码、面向 H20 的 GQA 加 MTP,以及最高 8 路零冗余张量并行。

论文 代码
2026.03 注意力架构

Attention Residuals

该工作用对前序层输出的注意力替代固定残差累积,使模型能够根据输入动态聚合不同深度的信息,并缓解 PreNorm 带来的表征稀释问题。论文还提出 Block AttnRes,在更低显存与通信开销下支持可扩展训练。

论文 项目
2019.11 注意力架构

Fast Transformer Decoding: One Write-Head is All You Need

该论文提出 multi-query attention,在不同注意力头之间共享 keys 和 values,以降低 Transformer 增量解码中的内存带宽开销。该变体显著提升解码速度,同时相较多头注意力基线仅带来轻微质量下降。

论文
  • View source
  • Report an issue