The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence
该技术报告介绍 MiniMax-M2 系列,一组以较小激活参数规模面向真实智能体部署的 MoE 语言模型。它结合智能体驱动的可验证数据管线、Forge 智能体原生 RL 系统,以及 M2.7 中的早期自演进机制,提升代码、深度搜索、办公任务和推理表现。
研究分类
基础模型报告、推理方法、长上下文语言建模、代码与推理系统研究。
15 篇论文
该技术报告介绍 MiniMax-M2 系列,一组以较小激活参数规模面向真实智能体部署的 MoE 语言模型。它结合智能体驱动的可验证数据管线、Forge 智能体原生 RL 系统,以及 M2.7 中的早期自演进机制,提升代码、深度搜索、办公任务和推理表现。
这篇综述认为连续潜在空间正在成为语言模型的原生计算基底,可缓解显式 token 生成中的冗余、离散化瓶颈和语义损失。论文从机制和能力两个视角梳理该领域,并总结未来关键挑战。
GLM-5 是面向长程智能体工程的新一代基础模型,在降低训练与推理成本的同时保持长上下文能力。它引入异步 RL 基础设施和智能体 RL 算法,以提升后训练效率和真实编码表现。
该论文提出一个开源多模态智能体模型,通过统一预训练、SFT 和强化学习共同优化文本与视觉能力。它还提出 Agent Swarm 并行编排框架,用于拆解和协同执行复杂任务。
MiMo-V2-Flash 是一个 309B 总参数、15B 激活参数的 MoE 基础模型,通过混合滑动窗口/全局注意力、27T token 预训练和 256k 长上下文扩展,面向快速推理、代码和智能体任务。它提出 Multi-Teacher On-Policy Distillation 来扩展后训练,并将 multi-token prediction 复用为 speculative decoding 的草稿模型以提升解码速度。
该论文提出与 MoE 条件计算互补的条件记忆稀疏轴,并以 Engram 实现静态知识的常数时间查找。论文通过缩放定律指导神经计算与记忆容量分配,使 Engram 在参数量和 FLOPs 对齐时提升知识、推理、代码、数学及长上下文检索表现。
DeepSeek-V3.2 是一个开放大语言模型,将高效长上下文计算与强推理、智能体能力结合起来。其关键技术包括 DeepSeek Sparse Attention、可扩展 RL 后训练,以及用于提升工具调用泛化和指令跟随鲁棒性的大规模智能体任务合成管线。
GLM-4.5 提出开源 MoE 基础模型,并通过思考/直接回答两种混合推理模式更好支持智能体、推理和代码任务。它结合大规模预训练与 RL 后训练,发布全量和紧凑版本,并在多个基准上取得强表现。
Kimi K2 是一个万亿参数 MoE 语言模型,聚焦强智能体、推理与代码能力以及稳定的大规模训练。论文提出带 QK-clip 的 MuonClip,以提升预训练过程中的优化稳定性和 token 效率。
该报告介绍 Qwen3 系列,覆盖多种规模的 dense 与 MoE 模型,并强调更强的多语言表现和效率。它在同一框架中统一深思模式与快速响应模式,并通过扩展后训练提升推理、代码和智能体行为。
MiniMax-01 提出基于 Lightning Attention 和 MoE 的长上下文模型家族,以提升扩展效率和实际吞吐。它结合优化后的并行策略与通信-计算重叠,在训练大模型时获得更强的长上下文表现。
DeepSeek-V3 是一个 671B 总参数、每 token 激活 37B 参数的 MoE 语言模型,面向高效推理和低成本大规模训练。它在 MLA 与 DeepSeekMoE 基础上引入无辅助损失的负载均衡和 multi-token prediction 训练目标,并通过稳定的 14.8T token 预训练及 SFT/RL 后训练取得强开源模型表现。
该论文介绍 Qwen2.5-Math 数学专用模型家族,在预训练、后训练和推理阶段持续使用自我改进。该方法增强了多种规模模型的数学推理和工具辅助解题能力。
该报告介绍 Qwen2 系列 dense 与 MoE 语言模型,覆盖不同规模的 base 和 instruction-tuned 版本。它强调更强的多语言、代码、数学和推理能力,并保持与闭源系统的竞争力。
DeepSeek-V2 是一个 236B 总参数、每 token 激活 21B 参数并支持 128K 上下文的 MoE 语言模型,面向低成本训练和高效推理。它结合用于压缩 KV 缓存的 Multi-head Latent Attention 与 DeepSeekMoE 稀疏计算,在降低训练成本和 KV 缓存的同时提升吞吐与开源模型表现。
2 篇论文
该论文提出 Exploratory Sampling (ESamp),用于缓解标准随机采样主要产生词面变化、语义探索不足的问题。它在测试时训练轻量 Distiller 由浅层表征预测深层表征,并用预测误差作为新颖性信号重加权候选 token,从而提升推理模型的 Pass@k 效率。
该论文为 LLM 的最优测试时计算提出理论框架,证明最优算法总会生成一种“毛毛虫树”结构,并提出 CaT。该方法相比 Tree-of-Thoughts 用更少 token 生成取得更高成功率。
1 篇论文