Awesome LLM Research Collections
  • Home
  • Papers
    • Attention
    • LLMs
    • Multimodal LLMs
    • Embeddings
    • SFT
    • Training
    • Reinforcement Learning
    • Agents Application
    • Vision
    • Auto-Prompt
  • Notes
  • Blogs
  • English
  • 中文

监督微调

监督微调方法、数据配方、token 加权和推理泛化研究。
English

研究分类

监督微调方法、数据配方、token 加权和推理泛化研究。

3论文
5资源链接
2026.05最新月份
监督微调方法

3 篇论文

监督微调方法

2026.05 监督微调方法

Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning

该论文系统研究监督微调中的基于难度的数据选择,指出不存在普适最优的数据难度。论文用分布内泛化与外推之间的权衡解释数据规模相关的最优难度,并发现随着数据预算增加,最优训练样本会逐渐转向更难样本。

论文
2026.04 监督微调方法

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

该论文挑战“SFT 只会记忆而 RL 才能泛化”的常见说法,发现带长链式思维监督的推理 SFT 也能跨域泛化。其泛化效果取决于优化动态、训练数据和基础模型能力三者的共同作用。

论文 代码 Hugging Face
2026.01 监督微调方法

ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

该论文提出 ProFit,一种监督微调方法,通过 token 概率作为语义重要性代理并屏蔽低概率 token,缓解单参考答案过拟合。该方法让训练更聚焦核心逻辑内容,并在推理和数学任务上优于标准 SFT 基线。

论文
  • View source
  • Report an issue