GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
GEPA 提出一种提示优化器,通过自然语言反思从试错中学习高层规则,平均超过 GRPO 6%,并最多减少 35 倍 rollout。它还比 MIPROv2 高出 10% 以上,并在代码优化的推理时搜索中展现潜力。
研究分类
提示词优化、评测器提示、提示集成和测试时提示学习。
1 篇论文
2 篇论文
该论文提出 Learning While Evaluating,让 LLM-as-a-judge 系统在推理时通过自生成反馈更新元提示,从而按序列持续改进。它进一步提出 Selective LWE,只在自我不一致样本上更新,以更好的成本效率提升评测质量。
APE 通过从失败案例中自动发现辅助评测维度,并结合置信度感知选择进行集成,提升 LLM-as-a-judge 的可靠性。它更有效地使用测试时计算,从而提高与人类对齐基准的一致性。