监督微调

监督微调方法、数据配方、token 加权和推理泛化研究。

研究分类

监督微调方法、数据配方、token 加权和推理泛化研究。

3论文

5资源链接

2026.05最新月份

3 篇论文

监督微调方法

2026.05 监督微调方法

该论文系统研究监督微调中的基于难度的数据选择，指出不存在普适最优的数据难度。论文用分布内泛化与外推之间的权衡解释数据规模相关的最优难度，并发现随着数据预算增加，最优训练样本会逐渐转向更难样本。

2026.04 监督微调方法

该论文挑战“SFT 只会记忆而 RL 才能泛化”的常见说法，发现带长链式思维监督的推理 SFT 也能跨域泛化。其泛化效果取决于优化动态、训练数据和基础模型能力三者的共同作用。

2026.01 监督微调方法

该论文提出 ProFit，一种监督微调方法，通过 token 概率作为语义重要性代理并屏蔽低概率 token，缓解单参考答案过拟合。该方法让训练更聚焦核心逻辑内容，并在推理和数学任务上优于标准 SFT 基线。