自适应语言模型
Hacker News 摘要原标题:Self-Adapting Language Models
该网页介绍了一项名为自适应语言模型(Self-Adapting Language Models,简称SEAL)的研究。研究的主要内容是针对大型语言模型(LLMs)在新任务、知识或示例应对时缺乏自我调整机制的问题,提出了一个能够自我适应的框架。
SEAL框架允许LLMs通过自生成微调数据和更新指令,来实现自我适应。当接收到新输入时,模型会生成一种自编辑的输出,可能会以不同方式重构信息,指定优化超参数,或调用工具进行数据增强和基于梯度的更新。通过监督微调(SFT),这些自我编辑的输出可以导致持久的权重更新,从而实现长期适应。
为了训练模型生成有效的自我编辑,研究者使用了强化学习循环,以更新后模型的下游性能作为奖励信号。与以往依赖于独立适应模块或辅助网络的方法不同,SEAL直接利用模型自身生成的内容来控制其适应过程。
实验结果显示,在知识集成和少样本泛化任务上的表现,表明SEAL是向能够自我指导适应的语言模型迈出的有希望的一步。相关的网页和代码可以在指定的URL上找到。