大语言模型

基础模型报告、推理方法、长上下文语言建模、代码与推理系统研究。

研究分类

基础模型报告、推理方法、长上下文语言建模、代码与推理系统研究。

18论文

54资源链接

2026.05最新月份

15 篇论文

基础模型

2026.05 基础模型

The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

该技术报告介绍 MiniMax-M2 系列，一组以较小激活参数规模面向真实智能体部署的 MoE 语言模型。它结合智能体驱动的可验证数据管线、Forge 智能体原生 RL 系统，以及 M2.7 中的早期自演进机制，提升代码、深度搜索、办公任务和推理表现。

论文项目代码 Hugging Face

2026.04 基础模型

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

这篇综述认为连续潜在空间正在成为语言模型的原生计算基底，可缓解显式 token 生成中的冗余、离散化瓶颈和语义损失。论文从机制和能力两个视角梳理该领域，并总结未来关键挑战。

论文项目

2026.02 基础模型

GLM-5: from Vibe Coding to Agentic Engineering

GLM-5 是面向长程智能体工程的新一代基础模型，在降低训练与推理成本的同时保持长上下文能力。它引入异步 RL 基础设施和智能体 RL 算法，以提升后训练效率和真实编码表现。

论文项目代码 Hugging Face

2026.02 基础模型

Kimi K2.5: Visual Agentic Intelligence

该论文提出一个开源多模态智能体模型，通过统一预训练、SFT 和强化学习共同优化文本与视觉能力。它还提出 Agent Swarm 并行编排框架，用于拆解和协同执行复杂任务。

论文项目代码 Hugging Face

2026.01 基础模型

MiMo-V2-Flash Technical Report

MiMo-V2-Flash 是一个 309B 总参数、15B 激活参数的 MoE 基础模型，通过混合滑动窗口/全局注意力、27T token 预训练和 256k 长上下文扩展，面向快速推理、代码和智能体任务。它提出 Multi-Teacher On-Policy Distillation 来扩展后训练，并将 multi-token prediction 复用为 speculative decoding 的草稿模型以提升解码速度。

论文代码 Hugging Face

2026.01 基础模型

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

该论文提出与 MoE 条件计算互补的条件记忆稀疏轴，并以 Engram 实现静态知识的常数时间查找。论文通过缩放定律指导神经计算与记忆容量分配，使 Engram 在参数量和 FLOPs 对齐时提升知识、推理、代码、数学及长上下文检索表现。

论文代码

2025.12 基础模型

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DeepSeek-V3.2 是一个开放大语言模型，将高效长上下文计算与强推理、智能体能力结合起来。其关键技术包括 DeepSeek Sparse Attention、可扩展 RL 后训练，以及用于提升工具调用泛化和指令跟随鲁棒性的大规模智能体任务合成管线。

论文项目 Hugging Face

2025.08 基础模型

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GLM-4.5 提出开源 MoE 基础模型，并通过思考/直接回答两种混合推理模式更好支持智能体、推理和代码任务。它结合大规模预训练与 RL 后训练，发布全量和紧凑版本，并在多个基准上取得强表现。

论文代码 Hugging Face

2025.07 基础模型

Kimi K2: Open Agentic Intelligence

Kimi K2 是一个万亿参数 MoE 语言模型，聚焦强智能体、推理与代码能力以及稳定的大规模训练。论文提出带 QK-clip 的 MuonClip，以提升预训练过程中的优化稳定性和 token 效率。

论文项目代码 Hugging Face

2025.05 基础模型

Qwen3 Technical Report

该报告介绍 Qwen3 系列，覆盖多种规模的 dense 与 MoE 模型，并强调更强的多语言表现和效率。它在同一框架中统一深思模式与快速响应模式，并通过扩展后训练提升推理、代码和智能体行为。

论文项目代码 Hugging Face

2025.01 基础模型

MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax-01 提出基于 Lightning Attention 和 MoE 的长上下文模型家族，以提升扩展效率和实际吞吐。它结合优化后的并行策略与通信-计算重叠，在训练大模型时获得更强的长上下文表现。

论文项目代码 Hugging Face

2024.12 基础模型

DeepSeek-V3 Technical Report

DeepSeek-V3 是一个 671B 总参数、每 token 激活 37B 参数的 MoE 语言模型，面向高效推理和低成本大规模训练。它在 MLA 与 DeepSeekMoE 基础上引入无辅助损失的负载均衡和 multi-token prediction 训练目标，并通过稳定的 14.8T token 预训练及 SFT/RL 后训练取得强开源模型表现。

论文代码 Hugging Face

2024.09 基础模型

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

该论文介绍 Qwen2.5-Math 数学专用模型家族，在预训练、后训练和推理阶段持续使用自我改进。该方法增强了多种规模模型的数学推理和工具辅助解题能力。

论文代码 Hugging Face

2024.07 基础模型

Qwen2 Technical Report

该报告介绍 Qwen2 系列 dense 与 MoE 语言模型，覆盖不同规模的 base 和 instruction-tuned 版本。它强调更强的多语言、代码、数学和推理能力，并保持与闭源系统的竞争力。

论文代码 Hugging Face

2024.05 基础模型

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-V2 是一个 236B 总参数、每 token 激活 21B 参数并支持 128K 上下文的 MoE 语言模型，面向低成本训练和高效推理。它结合用于压缩 KV 缓存的 Multi-head Latent Attention 与 DeepSeekMoE 稀疏计算，在降低训练成本和 KV 缓存的同时提升吞吐与开源模型表现。

论文代码 Hugging Face

2 篇论文

推理

2026.04 推理

Large Language Models Explore by Latent Distilling

该论文提出 Exploratory Sampling (ESamp)，用于缓解标准随机采样主要产生词面变化、语义探索不足的问题。它在测试时训练轻量 Distiller 由浅层表征预测深层表征，并用预测误差作为新颖性信号重加权候选 token，从而提升推理模型的 Pass@k 效率。

论文代码

2026.03 推理

Caterpillar of Thoughts: The Optimal Test-Time Algorithm for Large Language Models

该论文为 LLM 的最优测试时计算提出理论框架，证明最优算法总会生成一种“毛毛虫树”结构，并提出 CaT。该方法相比 Tree-of-Thoughts 用更少 token 生成取得更高成功率。

论文

1 篇论文

检测

2026.05 检测

Base Models Look Human To AI Detectors

该论文发现，商业 AI 文本检测器常把基础模型输出判为比指令微调模型输出更像人类文本，说明检测器可能更多捕捉指令微调痕迹和局部上下文，而非稳定的机器生成文本信号。论文提出 Humanization by Iterative Paraphrasing (HIP)，通过检测器无关的微调与迭代改写管线，在保持语义的同时提升检测规避效果。

论文代码