梯子:通过递归问题分解自我提升的大型语言模型

梯子:通过递归问题分解自我提升的大型语言模型

Hacker News 摘要

原标题:Ladder: Self-Improving LLMs Through Recursive Problem Decomposition

这篇论文介绍了LADDER(通过自主难度驱动的实例递归学习),这是一个框架,使大型语言模型(LLM)能够通过自我指导学习,自主提高它们的问题解决能力。LADDER采用递归生成和解决复杂问题的逐渐简化变种的方法,与之前需要经过整理的数据集或人工反馈的方式不同,LADDER利用模型自身的能力生成更容易的问题变体。

研究表明,LADDER在数学积分方面的有效性,能够将Llama 3.2 3B的准确率从1%提升到82%,并且使Qwen2.5 7B Deepseek-R1 Distilled在麻省理工学院积分大赛的资格考试中取得73%的成绩。此外,研究还引入了测试时间强化学习(TTRL),在推理时对测试问题的变体进行强化学习。借助TTRL,Qwen2.5 7B Deepseek-R1 Distilled在麻省理工学院积分大赛的资格考试中以90%的成绩达到了最先进的水平,超过了OpenAI o1的表现。

这些结果展示了自主战略学习如何在不依赖架构扩展或人工监督的情况下,实现显著的能力提升。


原文:https://arxiv.org/abs/2503.00735

评论:https://news.ycombinator.com/item?id=43287821

Report Page