Rethinking the Divergence Regularization in LLM RL
该论文提出 Divergence Regularized Policy Optimization (DRPO),以平滑的优势加权二次正则项替代 DPPO 的硬散度掩码,同时保留其信赖域几何结构。DRPO 通过有界连续梯度权重和越界后的纠正信号,提高 LLM 强化学习训练的稳定性与效率。
研究分类
奖励建模、RLHF 类优化、推理强化学习、智能体强化学习和 VLA 策略学习。
7 篇论文
该论文提出 Divergence Regularized Policy Optimization (DRPO),以平滑的优势加权二次正则项替代 DPPO 的硬散度掩码,同时保留其信赖域几何结构。DRPO 通过有界连续梯度权重和越界后的纠正信号,提高 LLM 强化学习训练的稳定性与效率。
该论文将大语言模型强化学习表述为约束策略优化,通过不同约束选择统一现有算法,并揭示裁剪、KL 正则化与信赖域的作用。论文据此推导 Constraint-Infused Policy Optimization (CIPO),在多种任务和模型族上提升推理性能与训练稳定性。
该论文提出 GSPO,一种用于大语言模型的强化学习算法,以序列级似然比替代 token 级重要性比率,并在序列级执行裁剪、奖励与优化。GSPO 相比 GRPO 提升训练效率和性能,稳定 MoE 强化学习训练,并有助于简化 Qwen3 模型的大规模强化学习基础设施。
该论文提出 Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO),一个用于激发大语言模型推理能力的开源大规模强化学习系统。论文开放训练配方、代码、数据集和模型权重,基于 Qwen2.5-32B 在 AIME 2024 上达到 50 分,提升大规模 LLM 强化学习的可复现性。
该论文将成功的大语言模型对齐损失归纳为带有 prospect theory 偏置的 human-aware losses,并提出 KTO,直接利用 desirable/undesirable 二元反馈优化生成效用。KTO 在 1B 到 30B 规模上达到或超过基于成对偏好的方法,也说明最佳对齐损失取决于具体场景中的归纳偏置。
该论文提出 Direct Preference Optimization (DPO),重新参数化 RLHF 奖励模型,使最优策略能够通过简单的分类损失直接从偏好数据中学习。DPO 无需单独拟合奖励模型或执行在线强化学习,以更简单稳定的训练达到或超过基于 PPO 的 RLHF。
该论文提出 Proximal Policy Optimization (PPO),一类在环境采样与代理目标上的多轮小批量优化之间交替进行的策略梯度方法。PPO 保留信赖域方法的关键优势,同时更易实现,并在样本效率、性能与运行时间之间取得良好平衡。
5 篇论文
该论文分析 on-policy self-distillation 在数学推理中效果不稳定的原因,指出基于特权上下文的教师信号会通过点式互信息过度强化答案已暗示的 token,同时压低驱动多步搜索的思考 token。论文提出 AntiSD,用带熵门控的反向自蒸馏散度替代默认下降方向,在 2 到 10 倍更少训练步数内达到 GRPO 水平,并将最终准确率最高提升 11.5 个百分点。
该论文提出 Draft-OPD,通过 on-policy distillation 复用 RL 训练轨迹,将 RL 后训练 LLM 的能力适配到 speculative draft model,避免为 draft model 进行昂贵的在线生成。论文证明 RL 训练与 OPD 式蒸馏之间的等价关系,并在保持任务性能的同时将 speculative decoding 速度最高提升 2.14 倍。
该论文提出 OmniOPD,一种无 logits 的在策略蒸馏框架,以基于语义相似度评分的 Monte Carlo 分块 rollout 替代脆弱的 token 级 logit matching,从而支持黑盒教师。其 peak-entropy 调度器聚焦高不确定性推理分叉,并结合贝叶斯平滑与基础模型 KL 锚点稳定训练,在数学任务上相较标准 OPD 最高提升 28.64%。
该论文研究 RLVR 中的 on-policy self-distillation,指出仅依赖带特权信息的自教师信号会造成信息泄漏和长期训练不稳定。论文提出 RLSD,用自蒸馏估计 token 级更新幅度,同时保留 RLVR 的环境反馈作为可靠更新方向。
该论文证明 on-policy distillation 是 dense KL-constrained RL 的一个特例,并提出带灵活参考模型和奖励缩放因子的 G-OPD。其 reward extrapolation 版本 ExOPD 相比标准 OPD 更强,并能在融合 RL 训练的领域专家时让学生模型超越教师边界。
4 篇论文
该论文提出 MemReward,一个基于图经验记忆的奖励预测框架,在有限标签下让 3B 和 1.5B 模型分别达到 Oracle 表现的 97.3% 和 96.6%。它还在域外任务上超过 Oracle。
该论文研究无需人工标注的无监督奖励模型扩展,通过学习网页语料文档前缀与后缀之间的偏好来训练奖励模型。实验显示该方法在不同模型骨干上稳定提升 RewardBench,并改进 best-of-N 选择和策略优化。
该论文将偏好数据上的 RLVR 用于训练生成式奖励模型,指出二分类任务会让 GRM 倾向于猜对结果而非给出可靠批判。论文提出方法缓解这一问题。
这篇综述梳理过程奖励模型如何在步骤或轨迹层面评估并引导大语言模型推理,而不只判断最终答案。论文围绕过程数据生成、PRM 构建,以及 PRM 在测试时扩展和强化学习中的使用闭环,覆盖数学、代码、多模态推理、机器人和智能体等应用。
1 篇论文
KVPO 使用 ODE-native online GRPO 框架,将流式自回归视频生成器与人类偏好对齐。它用历史 KV 缓存的因果语义路由替代噪声探索,并基于 Trajectory Velocity Energy 优化速度场代理策略。
1 篇论文
该论文提出 CapRL,首次将 RLVR 应用于开放式图像描述,通过检验无视觉语言模型能否仅依据生成描述回答图像问题来构造奖励。训练得到的 CapRL-3B 能生成信息更丰富且更多样的描述,其生成的描述数据还在 12 个基准上提升了大视觉语言模型的预训练效果。
8 篇论文
该论文提出 MUPO,一种强化学习方法,通过激励多解之间的发散思考来缓解 GRPO 训练 VLM 时的多样性坍塌。它让模型形成更深且更广的推理模式。
该论文提出 VL-Calibration,一种将大视觉语言模型的视觉置信度与推理置信度解耦的强化学习框架,用于缓解模型高置信度错误预测。它结合图像扰动下的视觉定位与 token 熵估计视觉确定性,并通过 token 级优势重加权提升校准效果和视觉推理准确率。
该论文研究 LLM 的高效推理,通过 RL 激励短而准确的推理轨迹。论文总结了训练阶段、奖励设计和优化策略,并在 0.6B 到 30B 模型上分析泛化规律。
该论文提出 FIPO,一种强化学习算法,用于解决 LLM 推理瓶颈中的粗粒度信用分配问题。它针对 GRPO 式训练中结果奖励无法区分关键逻辑转折与普通 token 的问题进行改进。
该论文提出 Agentic Proposing,一个使用专门智能体和 Multi-Granularity Policy Optimization 动态选择、组合模块化推理技能的框架。该框架用于合成高精度训练轨迹,从而增强大语言模型推理能力。
该论文研究推理语言模型强化学习中的策略熵坍塌瓶颈,发现熵与下游性能之间存在经验关系,使性能上限可被预测。论文从动作概率与 logit 更新的协方差推导熵动态,并提出 Clip-Cov 和 KL-Cov 保持探索、提升下游表现。
该论文展示纯强化学习无需人工标注推理轨迹即可直接激发 LLM 的高级推理行为。所提出框架诱导自我反思、验证和自适应策略使用,并在数学、代码和 STEM 推理任务上取得强提升。
该论文提出 DeepSeekMath 7B,将精心设计的网页级数学数据筛选流程与 Group Relative Policy Optimization (GRPO) 相结合;GRPO 是 PPO 的一种变体。该方法在降低 PPO 显存占用的同时增强数学推理能力,无需外部工具或投票即可在竞赛级 MATH 基准上取得强劲表现。
5 篇论文
Spreadsheet-RL 是一个用于在真实 Microsoft Excel 环境中训练专用表格智能体的强化学习微调框架,面向提示式智能体难以处理的复杂多步工作流。它结合自动化起止表格数据构建、多轮 Spreadsheet Gym 沙盒工具环境,以及 Domain-Spreadsheet 基准,以提升真实表格自动化能力。
该论文提出 Actor-Refiner 协作机制,解决搜索增强推理 RL 中的多尺度信用分配问题。它缓解稀疏轨迹级奖励难以区分高质量推理与偶然猜对的问题,并减少冗余或误导性搜索行为。
该论文提出 Arena-RL,一个通过视觉语言动作模型训练 LLM 驱动智能体玩视觉游戏的强化学习框架,重点从交互式游戏反馈中改进策略。实验表明,基于游戏轨迹的奖励优化能显著提升策略决策与跨游戏泛化。
该论文提出 Search-R1,一个让 LLM 在逐步推理中通过 RL 学会自主生成搜索查询并使用实时检索的框架。它提升了模型获取外部知识和最新信息的能力。
该论文提出 Search-o1,一个用智能体式检索增强生成机制和 Reason-in-Documents 模块增强大推理模型的框架。它通过精炼检索文档来缓解长程推理中的知识不足。
1 篇论文
该论文提出 SRPO,一个用于视觉语言动作模型的强化学习框架,用模型自身成功轨迹中的进展式奖励替代稀疏二元奖励。它利用潜在世界模型表征稳健衡量行为进展,并以更少 RL 步数在 LIBERO 上取得最优操作成功率。