2603.19461

📖 Источник: arxiv.org

DGM-Hyperagents: самоулучшающиеся агенты с метакогнитивной самостоятельной модификацией

Основной тезис

Статья представляет hyperagents — новый класс самопознавательных ИИ-агентов, которые могут улучшать не только качество решения задач, но и сам процесс самосовершенствования. Это достигается за счёт объединения агента задач и мета-агента в единую редактируемую программу.

Проблема существующих систем

Предшествующие системы рекурсивного самоулучшения, включая Darwin Gödel Machine (DGM), опираются на фиксированные, вручную созданные мета-уровневые механизмы. Ключевое ограничение: механизм генерации инструкций для самомодификации в DGM не подлежит изменению. Это приводит к тому, что улучшение возможно только в доменах, где навыки решения задач совпадают с навыками самомодификации — преимущественно в программировании. За пределами кодинга выравнивание нарушается, и системы теряют способность к самосовершенствованию.

Архитектура Hyperagents

Hyperagent — самопознавательный агент, интегрирующий два компонента в единой редактируемой программе:

Агент задач — непосредственно решает целевые задачи
Мета-агент — модифицирует агентов и генерирует новые версии

Критически, процедура мета-уровневой модификации сама является редактируемой. Агент может улучшать как способ решения задач, так и механизм, порождающий будущие улучшения. Авторы называют это метакогнитивной самостоятельной модификацией.

DGM-H: реализация и метод

DGM-Hyperagents (DGM-H) расширяет оригинальный DGM, сохраняя его структуру открытого исследования и добавляя возможность редактирования мета-уровня. Система поддерживает архив гиперагентов, инициированный единственным агентом, и итеративно расширяет его через два чередующихся этапа:

Метакогнитивная самомодификация — выбранные агенты-родители генерируют модифицированные версии себя
Оценка — модифицированные агенты эмпирически оцениваются и добавляются в архив

Отбор родителей пропорционален производительности и обратно пропорционален количеству успешных потомков, что балансирует эксплуатацию и исследование.

Экспериментальные результаты

Улучшение производительности задач

📊 Таблица: Домен | Начальный | DGM-H | DGM (оригинальный)

Coding (Polyglot) - Начальный: 0.084, DGM-H: 0.267, DGM (оригинальный): 0.307
Paper review - Начальный: 0.0, DGM-H: 0.710, DGM (оригинальный): 0.0
Robotics reward design - Начальный: 0.060, DGM-H: 0.372, DGM (оригинальный): 0.0

На тестовых задачах DGM-H превосходит базовые показатели и оригинальный DGM в некодинговых доменах. Примечательно, что в задаче дизайна reward-функций для робототехники DGM-H генерирует стратегии с прыжковым поведением, избегая локального оптимума «встать как можно выше».

Перенос мета-уровневых улучшений

Эксперименты с метрикой imp@50 (улучшение за 50 итераций) показали: мета-улучшения, приобретённые в одном домене, переносятся на другие домены. Агенты, оптимизированные на рецензировании статей и дизайне reward-функций, сохраняли способность генерировать улучшенных агентов на задачах оценивания олимпиадных задач (imp@50 = 0.630 против 0.0 для немодифицированного DGM).

Кумулятивное самоулучшение

При продолжении обучения DGM-H на новом домене с переносом агентов результаты улучшаются быстрее и достигают более высоких значений, чем при обучении с нуля. На задачах оценивания IMO DGM-H + transfer достиг точности 0.700, превзойдя бейзлайн ProofAutoGrader (0.670). На полном бенчмарке улучшение составило: точность 0.561 → 0.601, MAE 0.178 → 0.175.

Необходимые компоненты

Абляционные исследования подтвердили: как метакогнитивная самомодификация, так и открытое исследование критически необходимы для устойчивого прогресса. Отключение любого компонента приводит к отсутствию улучшений или незначительному прогрессу.

Механизмы, развиваемые DGM-H

Качественный анализ выявил ключевые способности, автономно развиваемые DGM-H:

Performance tracking — система записывает и агрегирует метрики поколений, отслеживая тренды улучшения
Persistent memory — накопление причинно-следственных гипотез и планов, активно используемых при последующих модификациях
Структурированные конвейеры оценки — переход от поверхностных инструкций к многоэтапным процессам с чёткими критериями и чек-листами

Безопасность

Все эксперименты проводились с мерами предосторожности: песочницы с ограничениями ресурсов, отсутствие интернет-доступа, предопределённые метрики оценки, человеческий надзор. Авторы подчёркивают необходимость обсуждения баланса между потенциалом ИИ как катализатора научного прогресса и степенью доверия, которое общество готово оказывать таким системам.

Ограничения и перспективы

Текущая версия DGM-H работает с фиксированным распределением задач; компоненты внешнего цикла (отбор родителей, протоколы оценки) остаются неизменными. Направления развития включают совместную эволюцию распределения задач и адаптацию алгоритмов поиска самими агентами.

Вывод: DGM-H демонстрирует принципиальную возможность практического открытого самоулучшения ИИ-систем во множестве доменов, открывая путь к системам, которые не просто ищут лучшие решения, но непрерывно совершенствуют сам процесс самосовершенствования.

📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ