Представляем Agent Readiness

Представляем Agent Readiness

@ai_longreads

Фреймворк для измерения и улучшения того, насколько хорошо ваша кодовая база поддерживает автономную разработку. Оцените репозитории по восьми техническим направлениям и пяти уровням зрелости.

Это AI-перевод статьи, сделанный каналом Про AI: Лучшие Статьи и Исследования.


Представляем Agent Readiness

Introducing Agent Readiness Автор: Factory Оригинальный текст:

Представляем Agent Readiness

Factory теперь может оценить, насколько хорошо ваша кодовая база поддерживает автономную разработку. Запустите /readiness-report, чтобы увидеть свою позицию по восьми техническим направлениям и пяти уровням зрелости, с конкретными рекомендациями о том, что исправить в первую очередь.

Запустить отчёт о готовности

Невидимое узкое место

Команды, внедряющие AI-агентов для написания кода, часто получают неравномерные результаты. Они винят модель, пробуют другого агента — и получают то же самое. Настоящая проблема обычно кроется в самой кодовой базе.

Агент не сломан. Сломано окружение. Отсутствие pre-commit хуков означает, что агент ждёт десять минут обратной связи от CI вместо пяти секунд. Недокументированные переменные окружения означают, что агент угадывает, терпит неудачу и угадывает снова. Процессы сборки, требующие «племенных знаний» из переписок в Slack, означают, что агент понятия не имеет, как проверить собственную работу.

Это проблемы окружения, а не проблемы агента. И они накапливаются. Кодовая база с плохими циклами обратной связи победит любого агента, которого вы на неё натравите. Кодовая база с быстрой обратной связью и чёткими инструкциями сделает любого агента драматически более эффективным.

Что мы измеряем

Agent Readiness оценивает репозитории по восьми техническим направлениям. Каждое из них адресует конкретный режим отказа, который мы наблюдали в production-окружениях. Нажмите, чтобы увидеть, что каждое направление выявляет и что происходит без него.

Style & Validation

Линтеры, проверка типов, форматтеры

Автоматизированные инструменты, которые мгновенно ловят баги. Без них агенты тратят циклы на синтаксические ошибки и дрейф стиля, которые можно было бы поймать за секунды.

Примеры:

  • ESLint / Biome
  • TypeScript strict mode
  • Prettier / Black

Без этого: агент отправляет код с проблемами форматирования, ждёт CI, исправляет вслепую, повторяет.

Пять уровней зрелости

Репозитории проходят через пять уровней. Каждый уровень представляет качественный сдвиг в том, что могут достичь автономные агенты. Выберите уровень, чтобы увидеть его требования и что агенты могут делать на этой стадии.

Уровень 3: Стандартизированный

Production-готовый для агентов

Чёткие процессы определены и применяются. Минимальная планка для production-grade (промышленного уровня) автономной работы.

Ключевые сигналы:

  • E2E-тесты существуют
  • Документация поддерживается
  • Сканирование безопасности
  • Observability (наблюдаемость)

Возможности агента: рутинное обслуживание — исправление багов, тесты, документация, обновление зависимостей.

Примеры: FastAPI, GitHub CLI, pytest

Уровень 3 — это цель. Большинству команд следует стремиться сюда в первую очередь.

Посмотрите это в действии

Мы опубликовали отчёты Agent Readiness для популярных open source проектов. Вы можете изучить их на factory.ai/agent-readiness, чтобы увидеть, как выглядят разные уровни зрелости на практике.

Контраст поучителен. CockroachDB на Уровне 4 имеет обширный CI, комплексное тестирование, чёткую документацию и сканирование безопасности. Express на Уровне 2 не имеет нескольких базовых сигналов. Оба — успешные, широко используемые проекты. Но агенту будет гораздо легче контрибьютить в CockroachDB.

Как использовать

Есть три способа взаимодействия с Agent Readiness в Factory.

CLI: /readiness-report

Запустите /readiness-report в Droid, чтобы оценить любой репозиторий. Отчёт показывает ваш текущий уровень, какие критерии проходят и не проходят, и приоритизированные предложения о том, что исправить в первую очередь.

Дашборд: Вид организации

Просматривайте оценки готовности вашей организации на app.factory.ai/analytics/readiness. Отслеживайте прогресс со временем, смотрите распределение репозиториев по уровням зрелости и определяйте, какие активные репозитории требуют внимания.

Дашборд показывает ваши репозитории с наименьшими оценками среди активных (тех, в которых были коммиты за последние 90 дней) с конкретными предложениями по исправлению.

API: Программный доступ

Получайте отчёты через Readiness Reports API для интеграции с вашим существующим инструментарием. Запускайте проверки готовности в CI/CD, создавайте кастомные дашборды или настраивайте алерты, когда оценки падают ниже пороговых значений.

GET /api/organization/maturity-level-reports
curl -X GET "https://app.factory.ai/api/organization/maturity-level-reports?limit=10" \
  -H "Authorization: Bearer fk-your-api-key"

Параметры запроса:

  • repoId — фильтрация отчётов по ID репозитория
  • limit — максимальное количество возвращаемых отчётов
  • startAfter — ID отчёта для курсора пагинации

Требуется API-ключ из Настроек

Консистентные оценки

Agent Readiness оценивает 60+ критериев с использованием LLM, что создаёт проблему: недетерминизм. Один и тот же репозиторий мог получать разные оценки при последовательных запусках, подрывая доверие. Мы решили это, привязывая каждую оценку к предыдущему отчёту для этого репозитория. До исправления дисперсия в среднем составляла 7% с пиками до 14,5%. После привязки дисперсия упала до 0,6% и держится на этом уровне шесть недель на 9 эталонных репозиториях, охватывающих низкий, средний и высокий уровни готовности.

Как работает scoring (подсчёт баллов)

Каждый критерий бинарный: пройден или нет. Большинство сигналов — это проверки существования файлов или парсинг конфигурации. Существует ли конфиг линтера? Включена ли защита ветки? Можно ли запустить тесты локально?

Критерии оценивают на двух уровнях. Критерии уровня репозитория выполняются один раз для всего репо (CODEOWNERS существует, защита ветки включена). Критерии уровня приложения выполняются для каждого приложения в монорепозиториях (линтер настроен для каждого приложения, unit-тесты существуют для каждого приложения). Монорепозитории видят оценки вроде «3/4», означающие, что три из четырёх приложений проходят этот критерий.

Чтобы разблокировать уровень, вы должны пройти 80% критериев этого уровня и всех предыдущих уровней. Эта поэтапная прогрессия делает акцент на построении твёрдого фундамента, а не на выборочном прохождении лёгких критериев на более высоких уровнях.

На уровне организации мы отслеживаем процент активных репозиториев, достигших Уровня 3 или выше. «80% наших активных репо готовы к агентам» — более действенно, чем «наш средний балл — 73,2%».

Автоматизированное исправление

Знать свои пробелы — это половина проблемы. Мы также можем их исправить.

Когда вы запускаете отчёт о готовности, вы можете запустить автоматизированное исправление из CLI или дашборда. Это запускает агента, который открывает pull request для исправления несоответствующих критериев: добавление недостающих файлов вроде AGENTS.md, настройка линтеров, установка pre-commit хуков.

Первоначальный фокус — на базовых пробелах. Отсутствующая документация, несуществующие конфигурационные файлы, базовый инструментарий, который должен быть в каждом репозитории. Эти исправления просты и высокоэффективны. То, что занимало у команды дни ручной работы по настройке, происходит за минуты.

После применения исправлений перезапустите проверку готовности для валидации и обновления вашей оценки.

Эффект накопления

Вот что мы узнали, помогая организациям вроде Ernst & Young, Groq и Bilt подготовить их кодовые базы к агентам: работа накапливается.

Лучшее окружение делает агентов более продуктивными. Более продуктивные агенты выполняют больше работы. Это высвобождает время для дальнейшего улучшения окружения. Команды, которые измеряют это и систематически улучшают, вырвутся вперёд от команд, которые этого не делают. Разрыв будет расти.

Это касается не только Factory. Более готовая к агентам кодовая база улучшает производительность всех агентов для разработки ПО. Инвестиции окупаются независимо от того, какие инструменты вы используете.

Запустить отчёт о готовности

Начните с /readiness-report на вашем самом активном репозитории. Посмотрите, где вы находитесь. Исправьте пробелы. Наблюдайте, как ваши агенты становятся лучше.


Подпишитесь на канал и каждый день читайте лучшие материалы про AI переведенные на русский!

Нашли интересную статью для перевода? Пришлите нашему боту: @ailongreadsbot

Report Page