FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention
该论文提出 Lookahead Sparse Attention,使用独立训练的神经记忆索引器预测未来上下文需求,仅在 GPU 上保留查询关键的 KV 分块。FlashMemory 将物理 KV 缓存占用平均压缩至完整上下文注意力的 13.5%,同时保持或略微提升长上下文准确率。
研究分类
围绕 Transformer 内部机制、注意力变体、KV 缓存行为和跨层信息流的研究。
4 篇论文
该论文提出 Lookahead Sparse Attention,使用独立训练的神经记忆索引器预测未来上下文需求,仅在 GPU 上保留查询关键的 KV 分块。FlashMemory 将物理 KV 缓存占用平均压缩至完整上下文注意力的 13.5%,同时保持或略微提升长上下文准确率。
该论文提出 Group-Query Latent Attention,对 MLA 做最小修改,使同一组训练权重同时暴露 MQA-absorb 和 GQA 两条解码路径。运行时可根据目标硬件选择路径,无需重新训练或自定义 kernel,从而兼顾 H100 式压缩解码、面向 H20 的 GQA 加 MTP,以及最高 8 路零冗余张量并行。
该工作用对前序层输出的注意力替代固定残差累积,使模型能够根据输入动态聚合不同深度的信息,并缓解 PreNorm 带来的表征稀释问题。论文还提出 Block AttnRes,在更低显存与通信开销下支持可扩展训练。
该论文提出 multi-query attention,在不同注意力头之间共享 keys 和 values,以降低 Transformer 增量解码中的内存带宽开销。该变体显著提升解码速度,同时相较多头注意力基线仅带来轻微质量下降。