2603.19461
Data&AI Insights📖 Источник: arxiv.org
DGM-Hyperagents: самоулучшающиеся агенты с метакогнитивной самостоятельной модификацией
Основной тезис
Статья представляет hyperagents — новый класс самопознавательных ИИ-агентов, которые могут улучшать не только качество решения задач, но и сам процесс самосовершенствования. Это достигается за счёт объединения агента задач и мета-агента в единую редактируемую программу.
Проблема существующих систем
Предшествующие системы рекурсивного самоулучшения, включая Darwin Gödel Machine (DGM), опираются на фиксированные, вручную созданные мета-уровневые механизмы. Ключевое ограничение: механизм генерации инструкций для самомодификации в DGM не подлежит изменению. Это приводит к тому, что улучшение возможно только в доменах, где навыки решения задач совпадают с навыками самомодификации — преимущественно в программировании. За пределами кодинга выравнивание нарушается, и системы теряют способность к самосовершенствованию.
Архитектура Hyperagents
Hyperagent — самопознавательный агент, интегрирующий два компонента в единой редактируемой программе:
- Агент задач — непосредственно решает целевые задачи
- Мета-агент — модифицирует агентов и генерирует новые версии
Критически, процедура мета-уровневой модификации сама является редактируемой. Агент может улучшать как способ решения задач, так и механизм, порождающий будущие улучшения. Авторы называют это метакогнитивной самостоятельной модификацией.
DGM-H: реализация и метод
DGM-Hyperagents (DGM-H) расширяет оригинальный DGM, сохраняя его структуру открытого исследования и добавляя возможность редактирования мета-уровня. Система поддерживает архив гиперагентов, инициированный единственным агентом, и итеративно расширяет его через два чередующихся этапа:
- Метакогнитивная самомодификация — выбранные агенты-родители генерируют модифицированные версии себя
- Оценка — модифицированные агенты эмпирически оцениваются и добавляются в архив
Отбор родителей пропорционален производительности и обратно пропорционален количеству успешных потомков, что балансирует эксплуатацию и исследование.
Экспериментальные результаты
Улучшение производительности задач
📊 Таблица: Домен | Начальный | DGM-H | DGM (оригинальный)
- Coding (Polyglot) - Начальный: 0.084, DGM-H: 0.267, DGM (оригинальный): 0.307
- Paper review - Начальный: 0.0, DGM-H: 0.710, DGM (оригинальный): 0.0
- Robotics reward design - Начальный: 0.060, DGM-H: 0.372, DGM (оригинальный): 0.0
На тестовых задачах DGM-H превосходит базовые показатели и оригинальный DGM в некодинговых доменах. Примечательно, что в задаче дизайна reward-функций для робототехники DGM-H генерирует стратегии с прыжковым поведением, избегая локального оптимума «встать как можно выше».
Перенос мета-уровневых улучшений
Эксперименты с метрикой imp@50 (улучшение за 50 итераций) показали: мета-улучшения, приобретённые в одном домене, переносятся на другие домены. Агенты, оптимизированные на рецензировании статей и дизайне reward-функций, сохраняли способность генерировать улучшенных агентов на задачах оценивания олимпиадных задач (imp@50 = 0.630 против 0.0 для немодифицированного DGM).
Кумулятивное самоулучшение
При продолжении обучения DGM-H на новом домене с переносом агентов результаты улучшаются быстрее и достигают более высоких значений, чем при обучении с нуля. На задачах оценивания IMO DGM-H + transfer достиг точности 0.700, превзойдя бейзлайн ProofAutoGrader (0.670). На полном бенчмарке улучшение составило: точность 0.561 → 0.601, MAE 0.178 → 0.175.
Необходимые компоненты
Абляционные исследования подтвердили: как метакогнитивная самомодификация, так и открытое исследование критически необходимы для устойчивого прогресса. Отключение любого компонента приводит к отсутствию улучшений или незначительному прогрессу.
Механизмы, развиваемые DGM-H
Качественный анализ выявил ключевые способности, автономно развиваемые DGM-H:
- Performance tracking — система записывает и агрегирует метрики поколений, отслеживая тренды улучшения
- Persistent memory — накопление причинно-следственных гипотез и планов, активно используемых при последующих модификациях
- Структурированные конвейеры оценки — переход от поверхностных инструкций к многоэтапным процессам с чёткими критериями и чек-листами
Безопасность
Все эксперименты проводились с мерами предосторожности: песочницы с ограничениями ресурсов, отсутствие интернет-доступа, предопределённые метрики оценки, человеческий надзор. Авторы подчёркивают необходимость обсуждения баланса между потенциалом ИИ как катализатора научного прогресса и степенью доверия, которое общество готово оказывать таким системам.
Ограничения и перспективы
Текущая версия DGM-H работает с фиксированным распределением задач; компоненты внешнего цикла (отбор родителей, протоколы оценки) остаются неизменными. Направления развития включают совместную эволюцию распределения задач и адаптацию алгоритмов поиска самими агентами.
Вывод: DGM-H демонстрирует принципиальную возможность практического открытого самоулучшения ИИ-систем во множестве доменов, открывая путь к системам, которые не просто ищут лучшие решения, но непрерывно совершенствуют сам процесс самосовершенствования.
📢 Информация предоставлена телеграм-каналом: Data&AI Insights
🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ