Тезисы Agent Labs
@ai_longreadsКак сочетание качественной инженерии агентов и исследований формирует новый подход к созданию быстрорастущих AI-стартапов, не требующий обучения SOTA LLM.
Это AI-перевод статьи, сделанный каналом Про AI: Лучшие Статьи и Исследования.
Тезисы Agent Labs
Original Title: The Agent Labs Thesis Автор: Latent.Space Оригинальный текст
[AIE CODE](https://www.ai.engineer/code) распродан, но вы можете [посмотреть прямую трансляцию](https://youtube.com/live/cMSprbJ95jg?feature=share), присоединиться к [AIE CODE++ в Сан-Франциско](https://luma.com/aieng) или к [Dev Writers Retreat](https://lu.ma/dwr2025) после NeurIPS!
Мы открыто выражаем симпатию Стеф Палаццоло, но вежливо не согласны с её введением термина "Neolab", который подхватил и популяризировал наш постоянный гость Диди Дас. На саммите AI Engineer Code Summit мы впервые использовали термин "Agent Lab" вместо него.
"Agent Labs" отражают отдельный тренд по сравнению с определением Стеф "Neolabs, которые используют новые подходы к разработке AI-моделей и исследованиям, упущенные OpenAI и Anthropic" (например, Thinking Machines, Humans&, General Intuition, SSI, Reflection и другие). Вместо этого термин охватывает Cursor ($29 млрд), Perplexity ($20 млрд), Cognition ($10 млрд), Sierra ($10 млрд), Lovable ($2 млрд), Gamma ($2 млрд), а также более старые компании, успешно перешедшие на AI, такие как Notion ($10 млрд), Vercel ($9 млрд), Glean ($7 млрд) и Replit ($3 млрд), а также "Agent Labs внутри Model Labs", такие как Claude Code ($1 млрд ARR), Codex и Google Labs.
Проблема с "NEOlab" та же, что и с "NEOcloud" и "MODERN Data Stack" — просто быть "новым" — это не бизнес-план и не инвестиционный тезис; каждый "привносит свой контекст", и договариваться на этой основе так же плодотворно, как строить Вавилонскую башню.
Agent Labs несут свой бизнес-план прямо в названии: если Model Labs в первую очередь исследуют и продают модели, то Agent Labs в первую очередь исследуют и продают агентов.
Различия между Model Labs и Agent Labs
необходимая оговорка: не все Agent Labs отвечают этим критериям, но я считаю, что со временем они будут сходиться к этим лучшим практикам под влиянием product-market fit и экономики.
Продукт на первом месте, модель на последнем: "Neolab-подход" — это то, как Magic.dev привлекли $100 млн для работы над моделью с длинным контекстом. Вместо этого Cursor сначала сделали форк VSCode, и только после 2 лет понимания потребностей пользователей занялись моделью.
Ценообразование или маркетинг на основе результатов: Когда вы Model Lab, вы находитесь в 9-900-кратной годовой гонке дистилляции, и у вас не так много ценовой власти при сравнении токен-к-токену с парето-границей LLM (исключение для Anthropic!). Люди жалуются на ваши подписки по $20/месяц и выжимают из них максимум. Когда вы Agent Lab, вы можете брать $2000/месяц или оплату за результат, и пока результаты сохраняются, у вас гораздо более высокие маржи, ценовая власть и даже рост, потому что вы измеримо заменяете некоторую часть человеческого труда.
Подход к автономности: Model Labs обычно стремятся забрать контроль у пользователя, потому что приоритетом являются часы автономной работы — это проще тестировать и, возможно, это находится на критическом пути к достижению полностью автономного AGI. Они делают акцент на лёгких обёртках (Building Effective Agents и Skills), потому что работают в тесной связке с командами моделей и верят, что следующее обновление модели может свести на нет улучшения от обёртки. Agent Labs ставят на первое место скорость, проверяемый/человеческий контроль в цикле и многоходовую интерактивность, и не боятся переписывать обёртку каждые несколько месяцев ради преимуществ, которые они приносят из будущего в настоящее.
Оценки/метрики/приоритизация: (это более слабый пункт) графики для моделей Frontier Model Lab часто одномерны, потому что речь идёт о продвижении максимальных возможностей (например, IMO, IOI), игнорируя затраты. Agent Labs фокусируются на высоком объёме и практическом использовании и обычно заботятся о парето-границе интеллекта/успеха против стоимости. Это более слабый пункт, потому что, конечно, Model Labs тоже заботятся об эффективности, но обычно это вторичная задача.
Это ни в коем случае не авторитетная или хорошо проработанная диаграмма, но моя теория заключается в том, что закон Конвея — самый явный индикатор: приоритеты компании демонстрируются через распределение ресурсов — денег, людей и времени. Хотя Model Labs часто создают Agent Labs внутри себя, а Agent Labs действительно строят модели, если отойти назад и посмотреть на общую картину, вы, вероятно, увидите резкую разницу:
Согласно анекдотическим данным, Model Labs платят "прикладным AI-инженерам" примерно вдвое меньше, чем "исследовательскому персоналу" (это соотношение, конечно, сильно варьируется, учитывая асимметрию в форме Цукерберга в компенсациях исследователей и research-инженеров), в то время как FDE и GTME часто могут быть самыми важными людьми в Agent Lab, который по сути живёт, чтобы максимизировать обучение от клиентов.
Ещё один "признак" не-Agent Lab — насколько охотно они "делятся секретами", то есть открывают исходный код агентов. OpenAI недавно поделились своим внутренним ассистентом по продажам, агентом поддержки, исследовательским ассистентом, агентом по контрактным данным и GTM-ассистентом. Vercel (который является AI Cloud и также имеет Agent Lab) недавно также поделился уроками от 5 своих агентов — от поддержки до v0, ревью кода, лидогенерации и аналитика данных. Это классическая стратегия в технологиях: превратить в товар свои комплементы. Model Labs с радостью научат вас строить агентов бесплатно, Agent Labs с радостью абстрагируют селектор моделей в пользу целевых моделей. Model Labs не особо беспокоятся о B2B/корпоративных потребностях, Agent Labs беспокоятся.
Ещё один (более слабый) признак Model Labs против Agent Labs — основатели, присоединившиеся через аквихайр, имеют высокий процент ухода из Model Labs (определение недавних примеров оставляется в качестве упражнения читателю), в то время как Agent Labs склонны хвастаться количеством бывших основателей (более продуктово-ориентированные).
В то время как Model (Neo)Labs, такие как Project Prometheus Джеффа Безоса (привлекающий $6 млрд) и Thinking Machines (привлекающий ещё $5 млрд!!!), чрезвычайно капиталоёмки, Agent Labs имеют лучшую экономику денежных потоков, но вам придётся подождать 10-15 лет, чтобы увидеть, какими будут их оценки при выходе по сравнению со средним Model Lab/Neolab. Однако мы начинаем видеть, что Agent Labs могут конкурентно нанимать сотрудников по сравнению с Model Labs — недавние примеры включают Сашу Раша и Лесса Райта.
Сезон охоты на Agent Labs открыт
Два факта недавно открыли мне глаза на разницу между Model Labs и Agent Labs. Во-первых, по оценкам Epoch, все вычисления inference (инференса, вывода модели) для OpenAI (весь ChatGPT, вся Sora, весь Codex, весь API inference, все внутреннее использование и так далее) составляют лишь тонкие синие 28% от их вычислительных ресурсов:
Это подтверждает числами общее впечатление, что хотя все говорят о ChatGPT и недавних продуктовых запусках вроде Sora и Atlas, подавляющее большинство ресурсов OpenAI направлено на неопубликованные фундаментальные исследования, как и должно быть.
Вторая подсказка — это прямая трансляция OpenAI Foundation, где Сэм обрисовал будущие приоритеты компании и впервые в истории OpenAI произнес слова "AI Cloud", "Third Party apps" и даже процитировал линию Билла Гейтса.
Судьба OpenAI как AI-облака — это то, что мы предвидели последние 2 года, и искали признаки на каждом DevDay от 2023 до 2024 и 2025 года, но Сэм никогда, никогда так четко не говорил о намерении OpenAI обслуживать сторонних разработчиков на уровне приложений, вместо того чтобы конкурировать с ними, создавая собственные приложения и делая ChatGPT "суперприложением". Это имеет абсолютный экономический смысл — OpenAI достигает наибольшего масштаба, спускаясь ВНИЗ по стеку к созданию собственных чипов, дата-центров и источников энергии, и гораздо более вероятно достигнет AGI таким путем, чем поднимаясь ВВЕРХ по стеку.
OpenAI — не единственная Model Lab, совершающая этот поворот к AI-облаку, просто она продвинулась дальше всех. Мы недавно записали подкасты как с Vercel, так и с GitHub, чтобы познакомиться с их стратегией AI Cloud, а бывшая гостья Рита Козлов сегодня объявила о приобретении Cloudflare компании Replicate (еще одна бывшая гостья!). Однако все они, вероятно, будут опережены в инфраструктурных расходах компанией Anthropic, которая сейчас завершает привлечение $350 млрд и объявила о своем первом дата-центре за $50 млрд. Они ТАКЖЕ расширили и сосредоточили усилия Claude Developer и являются самым серьезным конкурентом OpenAI:
Спустя год после написания статьи Почему GPT-обертки на самом деле хороши, мы наконец получили официальное благословение от ведущих frontier-лабораторий, что они наконец стали относиться к AI-инженерам серьезнее, чем исторически.
Итак, давайте подведем итоги:
Почему Agent Labs сейчас?
Приоритеты. Model Labs приоритизируют AGI-модели, Agent Labs приоритизируют AI-агенты.
Model Labs тратят <30% от своего бюджета на inference, прикладным AI-инженерам платят 50-70% от того, что получают исследовательские инженеры, и продукты постоянно забрасывают: Operator, NotebookLM Audio Overviews, Scheduled Tasks, Deep Research, {другие заметные модельные ветки, которые я не могу назвать}. Как OpenAI, так и Anthropic теперь сигнализировали, что они строят платформы для разработчиков, а не преследуют собственные приложения, поскольку осознали, что быть гипермасштабируемыми компаниями/"AI Clouds" и платформами — гораздо более масштабируемая стратегия.
за заметным исключением Claude Code, Codex и Sora, и возможно Claude for Finance. Model Labs строят Agent Labs внутри себя, в то же время как Agent Labs начинают создавать собственные модели.
Разнообразие моделей. Количество релевантных frontier Model Labs ВЫРОСЛО, а не уменьшилось, включая китайские/американские лаборатории с открытыми моделями, что означает: 1) вы можете максимизировать возможности, используя все их, 2) люди хотят платить кому-то за максимизацию возможностей за буквально полноценную работу по отслеживанию состояния дел и построению лучшей комбинации модели и harness (оболочки, фреймворка) для задачи. Часто это внутренний AI-царь, но по мере углубления этой специализации — это Agent Labs.
Агенты — это системы. Селектор моделей — это ложь. Агенты в реальном мире — это связки (модель, промпт, память, инструменты, планирование, оркестрация, аутентификация), поэтому конкурентное преимущество модельных лабораторий в построении таких end-to-end систем снижается, так как они в первую очередь дифференцированы на модельном уровне.
Pretraining → RL. С момента Alexnet (2012) и GPT-1 (2018) прошло уже около 7-13 лет масштабирования pretraining (предобучения), где общие знания и unsupervised (неконтролируемое) языковое моделирование среднего человеческого ответа в основном решены, и мы близки к достижению пределов данных для pretraining. Эра RL (обучения с подкреплением) вознаграждает доменную фокусировку/выделенные среды и соответствие/превосходство над лучшими людьми.
Когда Grok 4 (теперь известно, что это 3T параметров) показывает примерно эквивалентные расходы на posttraining (постобучение) и pretraining, тезис, который Джереми Ховард изложил в нашем подкасте 2 года назад, воплощается в жизнь; и теперь Agent Labs вроде Cursor и Cognition могут по сути начинать с всё более мощных моделей с открытыми весами и просто проводить continued training (продолженное обучение).
Если вы внимательно посмотрите на выступление Саши Раша на Ray Summit, вы заметите, что ось x имеет логарифмический масштаб, что, хотя и не количественно определено, можно предположить, что Cursor теперь говорит, что их post-training может в значительной степени компенсировать разрыв между лучшими открытыми моделями и лучшими frontier-моделями. Сколько еще до того момента, когда они начнут их превосходить?
Этот последний элемент обучения моделей, а также общие исследования всех аспектов Agent Engineering и Agent Research — вот почему ТАКЖЕ важно сохранить половину Labs в Agent Labs — это не просто "Agent Companies" или "Agent Startups" — чтобы быть реально передовыми в том, что они делают, им, вероятно, придется инвестировать больше в R&D и быстрое экспериментирование в реальном научном смысле, а не только в смысле налогового учета.
Конец универсального подхода?
"Медвежий сценарий" для того, чтобы различие между Agent Labs и Model Labs было значимым, заключается в том, что Agent Labs, встроенные в Model Labs, станут настолько мощными и важными, что фактически создадут устойчивое ответвление в дереве моделей.
Поясню: до 2025 года идея Model Lab, стремящейся к "AGI", означала одну модель, которая могла делать все — отвечать на MMLU, кодить полноценное приложение и также играть роль друга. Это ставит "G" в "AGI". Чуть больше года назад запуск GPT 4o обещал объединить аудио/изображение/текст на входе и аудио/изображение/текст на выходе. "o" в "4o" означало "omnimodel" (всемодель).
Однако по сей день GPT5 избегает омнимодальности, и продолжающиеся проблемы с роутером GPT5, сохранение gpt-5-codex в отличие от обычного gpt-5, и блогпост Фиджи Симо, буквально озаглавленный "Выход за рамки универсального подхода", предполагают, что, по крайней мере на данный момент, видение Model Lab может меняться, по крайней мере до следующего большого алгоритмического сдвига.
Подпишитесь на канал и каждый день читайте лучшие материалы про AI переведенные на русский!
Нашли интересную статью для перевода? Пришлите нашему боту: @ailongreadsbot