Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning
该论文系统研究监督微调中的基于难度的数据选择,指出不存在普适最优的数据难度。论文用分布内泛化与外推之间的权衡解释数据规模相关的最优难度,并发现随着数据预算增加,最优训练样本会逐渐转向更难样本。
研究分类
监督微调方法、数据配方、token 加权和推理泛化研究。
3 篇论文
该论文系统研究监督微调中的基于难度的数据选择,指出不存在普适最优的数据难度。论文用分布内泛化与外推之间的权衡解释数据规模相关的最优难度,并发现随着数据预算增加,最优训练样本会逐渐转向更难样本。
该论文挑战“SFT 只会记忆而 RL 才能泛化”的常见说法,发现带长链式思维监督的推理 SFT 也能跨域泛化。其泛化效果取决于优化动态、训练数据和基础模型能力三者的共同作用。
该论文提出 ProFit,一种监督微调方法,通过 token 概率作为语义重要性代理并屏蔽低概率 token,缓解单参考答案过拟合。该方法让训练更聚焦核心逻辑内容,并在推理和数学任务上优于标准 SFT 基线。