Awesome LLM Research Collections
  • Home
  • Papers
    • Attention
    • LLMs
    • Multimodal LLMs
    • Embeddings
    • SFT
    • Training
    • Reinforcement Learning
    • Agents Application
    • Vision
    • Auto-Prompt
  • Notes
  • Blogs
  • English
  • 中文

训练

可复用训练配方、监督微调、数据选择、蒸馏和优化实践。
English

研究分类

可复用训练配方、监督微调、数据选择、蒸馏和优化实践。

2论文
4资源链接
2026.05最新月份
优化 蒸馏

1 篇论文

优化

2026.05 优化

PowLU: An Activation Function for Stable Pre-Training of LLMs

该论文指出 SwiGLU 在大正输入下接近二次放大会扩大输出范围并加剧 outlier,从而在低精度大规模 LLM 预训练中带来数值不稳定。论文提出 Power Linear Unit (PowLU),用有理幂函数在保持自适应非线性的同时稳定 spike 区域,并通过 scaling law 与 Ling 模型实验展示竞争性效果和更好的训练可扩展性。

论文

1 篇论文

蒸馏

2023.06 蒸馏

Knowledge Distillation of Large Language Models

该论文研究面向生成式大语言模型的白盒知识蒸馏,并提出 MiniLLM,用反向 KLD 替代标准前向 KLD,以避免学生模型高估教师分布中的低概率区域。论文推导了有效优化方法,并在 120M 到 13B 参数的不同模型族上提升指令跟随质量、校准性、曝光偏差和长文本生成表现。

论文 代码 Hugging Face
  • View source
  • Report an issue