PowLU: An Activation Function for Stable Pre-Training of LLMs
该论文指出 SwiGLU 在大正输入下接近二次放大会扩大输出范围并加剧 outlier,从而在低精度大规模 LLM 预训练中带来数值不稳定。论文提出 Power Linear Unit (PowLU),用有理幂函数在保持自适应非线性的同时稳定 spike 区域,并通过 scaling law 与 Ling 模型实验展示竞争性效果和更好的训练可扩展性。
研究分类
可复用训练配方、监督微调、数据选择、蒸馏和优化实践。
1 篇论文
该论文指出 SwiGLU 在大正输入下接近二次放大会扩大输出范围并加剧 outlier,从而在低精度大规模 LLM 预训练中带来数值不稳定。论文提出 Power Linear Unit (PowLU),用有理幂函数在保持自适应非线性的同时稳定 spike 区域,并通过 scaling law 与 Ling 模型实验展示竞争性效果和更好的训练可扩展性。
1 篇论文
该论文研究面向生成式大语言模型的白盒知识蒸馏,并提出 MiniLLM,用反向 KLD 替代标准前向 KLD,以避免学生模型高估教师分布中的低概率区域。论文推导了有效优化方法,并在 120M 到 13B 参数的不同模型族上提升指令跟随质量、校准性、曝光偏差和长文本生成表现。