Мой обзор GPT-5.3-Codex

@ai_longreads

Первая модель программирования, которую можно оставить работать на несколько часов и вернуться к готовому, полностью работающему софту. Автор тестировал сессии длительностью 8+ часов — и модель не теряла нить рассуждений.

Это AI-перевод статьи, сделанный каналом Про AI: Лучшие Статьи и Исследования.

Мой обзор GPT-5.3-Codex

My GPT-5.3-Codex Review Автор: Matt Shumer Оригинальный текст:

Полная автономность достигнута

TL;DR

Это первая модель для программирования, где я могу запустить задачу, уйти на несколько часов и вернуться к полностью работающему софту. У меня были сессии, которые шли 8+ часов без потери фокуса.
Главное улучшение — способность принимать решения в условиях неопределённости: когда в промптах не хватает деталей, модель делает предположения, поразительно похожие на те, что сделал бы я сам.
Тесты и валидация (проверка результатов) — мощный инструмент. Когда есть чёткие критерии успеха/провала, модель будет итерировать часами, не отклоняясь от цели.
Она значительно автономнее, чем Opus 4.5, хотя и медленнее. Мультиагентное взаимодействие наконец-то ощущается реальным.
Сложно представить, как ощущается такой уровень автономности, пока не попробуешь. После этого сложно вернуться к чему-то другому.

Что хорошо

Модель может замкнуть полный цикл разработки: внести изменения, запушить, задеплоить, проверить живой URL, почитать логи сервера и продолжать итерировать, пока всё действительно не заработает. Почти каждый раз получается с первого раза.
Когда в моих промптах не хватает важных деталей или архитектурных решений, она делает предположения, поразительно похожие на мои собственные.
Она не деградирует и не путается на середине многочасовых сессий. Просто продолжает работать, пока ограничения не удовлетворены.
Качество кода значительно выше, чем у конкурентов — более чистая архитектура, меньше костылей, меньше тонких багов, накапливающихся со временем.
Она эффективно использует время ожидания. Если что-то выполняется и нужно подождать, модель пойдёт собирать контекст, улучшать документацию или исправлять смежные проблемы — не выходя за рамки.
Она сама находит и использует установленные скиллы, не требуя явных указаний. Другие модели часто нуждаются в подсказке.
Я могу сказать «найди на этой машине репозиторий с API для X», и она найдёт его, изучит паттерн, правильно применит и продолжит работу — даже отправляя изменения в другие репозитории и возвращаясь обратно без потери контекста.
Я протестировал её в мультиагентной системе AgentRelay, и это был один из первых случаев, когда мультиагентное взаимодействие действительно ощущалось полезным. Модели сотрудничали по-настоящему эффективно, улучшая результат, а не просто демонстративно.

Что не очень

Она медленнее Opus 4.5. Сессии часто занимают несколько часов. Этот компромисс вполне реален.
Это не моя любимая модель для проектирования промптов и архитектуры агентов. Для этого я по-прежнему беру Opus.
Повествование о статусе иногда сбоит. Бывает, что модель просто перестаёт информировать меня посреди сессии, а чекбоксы задач не всегда обновляются вовремя — это делает прогресс менее прозрачным.
Итоговые отчёты часто слишком технические. Если вы vibe-coder (разработчик в свободном стиле) без глубоких фундаментальных знаний, придётся просить объяснение простым языком.
Она настолько способная, что иногда я не знаю, чем заняться, пока она работает. Странная проблема.

Каждый значительный скачок в моделях меняет то, как я использую эти системы. Opus 4.5 подвела нас очень близко к полной автономности, но GPT-5.3-Codex — первая модель, где я чувствую: указываю желаемый результат, настраиваю валидацию (чёткие тесты прошёл/не прошёл), нажимаю запуск — и с высокой уверенностью возвращаюсь через час-два (а иногда и больше) к почти идеально выполненной задаче, какой бы сложной она ни была.

Каждый скачок меняет мой рабочий процесс, и это — большой скачок

Забавно осознавать, что это было всего полтора года назад, но Sonnet 3.5 был, по сути, переводчиком с английского в код. Отличная модель, но каждый шаг приходилось направлять самому. Она делала (почти) ровно то, что ты говоришь — полезно, но сама работу не двигала. Чтобы эффективно ею пользоваться, нужно было хоть немного уметь программировать самому.

Следующие модели становились сильнее. Они стали походить на джуниор-разработчиков. Им можно было давать задачи покрупнее. Они работали дольше. Но всё равно приходилось вести за руку практически на каждом шагу, а итерации были постоянной борьбой. Чтобы правильно реализовать фичу, могло потребоваться 10–20 промптов, а если задача супер-сложная — ещё больше.

GPT-5 стала следующей точкой перелома. Я перестал разжёвывать шаги и начал давать более крупные цели. Она многое могла делать относительно автономно, но на больших репозиториях спотыкалась и всё ещё ошибалась достаточно часто, особенно когда я по-настоящему проверял её пределы. И главное — мне всё ещё приходилось направлять, давая предельно детальные промпты с описанием как я хочу, чтобы всё было сделано.

Как мы знаем, Opus 4.5 была большим скачком от GPT-5 (и других моделей, выпущенных после). Opus 4.5 невероятно быстрая и обычно справляется с большинством задач, но ей нужны очень жёсткие ограничения. Если я не буду предельно явным насчёт ограничений, анти-целей и способов валидации, она часто выберет самый быстрый правдоподобный путь к успеху. Может обойти корневую причину патчем, заглушить то, что не следует, или оптимизировать под «выглядит готовым» вместо «сделано надёжно и так, как хочет пользователь».

Даже когда я явно всё прописываю, она иногда решает задачу способом, который я бы не отправил в продакшен. Те последние 5–10 процентов здравого смысла всё ещё теряются на длинных, запутанных, высокорисковых задачах — и именно это потом стоит часов работы.

Но теперь мы достигли следующей точки перелома, и я заявляю: это полная автономность.

Мы пришли.

Главное отличие: она принимает решения, которые принял бы я сам

Самое важное улучшение — не скорость. И даже не сырой интеллект. Это способность к суждению.

«Но Мэтт!» — скажете вы. «Суждение — это уникально человеческое!» Извините, но нет.

Становится всё очевиднее, что пока существуют данные для некоторой задачи, модель, обученная на этих данных, может эту задачу выполнять. Человеческие суждения присутствуют в огромных объёмах данных в интернете. Компании платят большие деньги за данные, которые помогут модели с суждениями и вкусом. Это первая модель, которая ощущается так, будто она глубоко интернализировала это для конкретного домена.

Когда промпт оставляет пространство для интерпретации, GPT-5.3-Codex склонна выбирать то, что выбрал бы я. Она заполняет недостающий контекст способом, согласованным с тем, как я сам думаю о проблеме.

Качество предположений в условиях неопределённости важнее, чем многие осознают, и GPT-5.3-Codex справляется с этим гораздо лучше предыдущих моделей, которые я использовал.

Мультиагентное взаимодействие наконец стало реальностью

Я также протестировал GPT-5.3-Codex в мультиагентной системе, построенной с AgentRelay (раскрытие: я недавно инвестировал). Несколько экземпляров GPT-5.3-Codex общались друг с другом для решения задач, и результаты были просто невероятными. Скоро поделюсь подробнее.

Это одна из первых моделей, которая действительно может сотрудничать с другими моделями, причём не поверхностно. С Opus в той же системе часто казалось, что модели «говорят ради разговора», и не было очевидно, что несколько моделей работают лучше одной. С GPT-5.3-Codex коммуникация была эффективной, агенты сами разделялись на фокусированные рабочие потоки, и сотрудничество реально улучшало результат. Всё происходило гораздо быстрее, и каждый агент оставался более специализированным. Это было чертовски впечатляюще. Думаю, такое скоро станет очень распространённым.

Ключ к успеху: валидация превращает это в настоящего агента

Если хотите полной автономности, один подход доминирует над всеми остальными: дайте модели надёжную валидацию и тесты заранее.

С чёткими целями валидации GPT-5.3-Codex будет итерировать часами, не теряя нить. Она не отклоняется. Не путается на середине. Продолжает работать, пока ограничения не удовлетворены и тесты не зелёные.

Без тестов она превосходна. С тестами — это инструмент совершенно другого класса.

Примечание: это верно для любого современного агента программирования. GPT-5.3-Codex просто в другой лиге, когда дело касается эффективного использования валидации и тестов для итеративного достижения цели.

Она даже использует скиллы без указаний

Маленькая деталь, которая оказывается очень важной: модель готова использовать локальные скиллы и инструменты в нужный момент без моих явных указаний.

Даже Opus 4.5 часто нуждается в подсказке вроде «проверь, есть ли скилл для этого». Она не сканирует доступное естественным образом. GPT-5.3-Codex делает это и использует скиллы, когда они действительно полезны, а не просто потому что существуют.

Первая модель, от которой я спокойно отхожу

Для долгосрочной, сложной инженерной работы это первая модель, где я могу запустить сессию и заняться чем-то другим, не чувствуя необходимости постоянно проверять, идёт ли всё по плану. Она просто продолжает работать. Не деградирует постепенно. Не сдаётся раньше времени. Как правило, справляется.

Да, она медленнее Opus 4.5. Сессии часто занимают несколько часов (у меня были пары, которые шли больше 8 часов). Этот компромисс вполне реален. Но стабильность настолько выше, что я доверяю ей больше на всём, что действительно не хочу испортить.

Качество кода тоже лучше

Эту часть легко пропустить, потому что ощущаешь её через недели: качество кода и архитектура обычно значительно лучше, чем у Opus 4.5.

Я вижу меньше костылей, меньше мёртвого кода, меньше тонких багов, накапливающихся по мере эволюции репозитория. Дело не только в том, что она завершает задачу. Она обычно оставляет кодовую базу в гораздо лучшем состоянии, что особенно впечатляет, учитывая, что часто работает намного дольше и вносит более масштабные изменения.

Она использует время как хороший инженер

Ещё одно недооценённое поведение: она эффективно использует время ожидания. Если что-то выполняется и в этот момент нет ничего полезного, что можно сделать, она часто идёт собирать контекст, улучшать документацию или исправлять проблемы самостоятельно.

Другие модели будут сидеть и ждать, пока я явно не скажу, что делать дальше. GPT-5.3-Codex делает очевидно полезное, не залезая в изменения, о которых я не просил.

Работа между репозиториями — это нечто (в хорошем смысле)

Я обычно даю ей доступ за пределы одного репозитория, в который она изначально ограничена. Это открыло совершенно другой рабочий процесс.

Я могу сказать что-то вроде «найди на этой машине репозиторий с API для X», и она найдёт его, изучит паттерн, правильно применит в текущем репозитории и продолжит работу. Она даже может внести изменения в другой репозиторий, запушить туда и вернуться к основной задаче, не потерявшись.

Наблюдать, как она перемещается по моей машине таким образом — до сих пор немного сюрреалистично.

Она может замкнуть цикл на деплойменте (Railway CLI)

Я даю ей доступ к Railway CLI, и она способна замкнуть полный цикл разработки за меня. Я говорю что-то вроде: «когда будешь готова, задеплой это на Railway и убедись, что всё работает идеально», и она просто делает.

Она внесёт изменения, запушит их, задеплоит, проверит реальный продакшен-URL, почитает логи и продолжит итерировать, пока всё действительно не заработает. Мы видели проблески этого с другими моделями. Opus неплохо справляется с использованием логов для самокоррекции, но всё ещё ошибается. Gemini 3 Pro в Antigravity включает браузерную итерацию, и большинство инструментов программирования теперь имеют плагины для частей этого цикла. Разница в том, что это наконец ощущается как настоящий замкнутый цикл — работает почти каждый чёртов раз.

Наблюдать за этим просто невероятно. Я могу начать свежий проект, отойти от компьютера и вернуться через час-два (а иногда и больше) к нескольким новым кодовым базам на GitHub, новым deployment (развёртываниям) на Railway и всей системе, идеально взаимодействующей.

Когда что использовать (моё реальное правило выбора)

Вот как всё устроилось для меня сейчас:

Opus 4.5 по-прежнему мой дефолт для быстрой работы и быстрых циклов итерации, особенно когда скорость важнее глубины. Но я использую её всё меньше с каждым днём. В последнее время я собираю кучу мелких задач, для которых обычно брал Opus, в один большой промпт для Codex и даю ей работать час или около того.

GPT-5.3-Codex — то, за чем я тянусь, когда задача долгосрочная, сложная, полная ограничений, или когда я действительно не хочу ошибиться. Всё, что хочу запустить и уйти. Но опять же, чем больше я её использую, тем больше хочу использовать для всего, так что ожидаю, что это изменится в ближайшие недели, и Codex займёт гораздо больше моей работы.

UI и стилизация по-прежнему не сильные стороны GPT-5.3-Codex. Opus здесь лучше, а Gemini 3 Pro всё ещё лучшая из тех, что я использовал для стилизации.

В моём обзоре GPT-5.2 я говорил, что модель потрясающая, но слишком медленная. GPT-5.3-Codex не драматически быстрее. Но странным образом это больше не так важно для меня. Она настолько надёжна на долгосрочной работе, что я просто запускаю её и возвращаюсь позже. Скорость всё ещё налог, но она перестаёт быть критичным недостатком, когда модель работает так хорошо.

О режимах reasoning (рассуждения): OpenAI рекомендует Medium, который силён, но когда я планирую отойти, Extra High просто логичен. Для меня Extra High — правильная настройка для «сделай правильно, не торопись».

Она лучше, но менее увлекательна

Есть мелкие неудобства, и самое странное — она может работать часами, буквально часами, и я не всегда знаю, чем заняться в это время.

С Claude я запускал параллельные сессии для других мелких задач, потому что основная сессия не могла сделать всё за один раз. GPT-5.3-Codex настолько способная, что одна сессия часто покрывает большую часть, если не всё, что мне нужно. Это потрясающе, но это также оставляет меня иногда сидеть сложа руки. Странная адаптация, к которой я всё ещё привыкаю.

Заметки на полях

Проектирование промптов и агентов

Я создаю много агентов. GPT-5.3-Codex — не моя любимая модель для архитектуры промптов как таковой. Она иногда принимает непродуманные решения о том, что должно входить в промпты и поток агента, и у меня бывали случаи, когда она ломала важные для меня потоки агентов. Я по-прежнему беру Opus для доработки промптов и создания агентов.

Одна оговорка к оговорке: если я даю ей очень явную валидацию того, что агент должен делать — конкретные тесты для выходов и поведения — она может итерировать к рабочему решению, даже когда первая попытка мимо. Она будет пробиваться к зелёным тестам.

Тем не менее, когда направление понятно, GPT-5.3-Codex исключительна в построении систем вокруг агента и выполнении работы.

Повествование о статусе может сбоить

Под повествованием о статусе я имею в виду, когда модель проговаривает, что делает во время работы: «Вижу эту проблему, собираюсь проверить X, затем запустить Y». Обычно это получается неплохо.

Иногда она просто перестаёт рассказывать на какое-то время, что затрудняет понимание происходящего посреди сессии. Чекбоксы задач в UI очень помогают. Она перечисляет задачи, которые планирует выполнить, и можно наблюдать, как они отмечаются. Но я заметил, что эти чекбоксы иногда не обновляются до конца сессии. Это в основном проблема видимости. На качество результата это существенно не повлияло.

Итоговые отчёты могут быть слишком техническими

Ещё одно мелкое неудобство: в конце сессии модель часто даёт апдейт на очень жаргонном языке. Если вы более vibe-coder-ный разработчик без глубоких фундаментальных знаний, это будет тяжело. Часто придётся просить объяснить простым языком.

Даже если вы технический специалист, это всё равно может быть раздражающе плотным. Чаще всего мне просто нужно быстрое, понятное понимание того, что изменилось и сработало ли это, а не стена технической каши. Весь смысл использования этих моделей — избежать этой каши в первую очередь.

Почему я не обозрел Mac-приложение

Несколько человек спрашивали, почему я не обозрел приложение Codex для Mac, хотя у меня был ранний доступ. Причина в том, что я был настолько впечатлён 5.3-Codex, что не казалось стоящим тратить время почти на что-либо другое.

Тем не менее, само приложение сильное: управление множеством сессий в одном месте действительно полезно, и поддержка локальных/облачных запусков плюс worktree/веток — это отлично. Я всё ещё видел несколько UI-багов (особенно с обновлениями посреди сессии), и есть куда упростить интерфейс, но качество модели было настолько далеко впереди, что захватило всё моё внимание.

Эта модель изменила то, как я работаю

Мой рабочий процесс теперь выглядит так: я пишу предельно детальные промпты, определяю явную валидацию и тест-кейсы заранее, а затем даю ей работать.

GPT-5.3-Codex — первая модель для программирования, которую я использовал, где полная автономность начинает ощущаться операционно реальной.

Она не идеальна. Скорость по-прежнему огромный минус. Но поскольку её способность к суждению в условиях неопределённости лучше, долгосрочная стабильность лучше, и когда даёшь ей цели валидации, она становится невероятно надёжной — это теперь моя любимая модель для большинства моей работы.

Opus 4.5 по-прежнему мой выбор для быстрой работы. Но для всего сложного, долгого или того, что я действительно не хочу испортить, это первая модель, где мне комфортно нажать запуск, уйти от компьютера и ожидать, что оно действительно... сработает.

Подписывайтесь на меня в X для апдейтов о новых моделях, рабочих процессах и продуктах, которые стоит использовать.

Подписаться @mattshumer_

Подпишитесь на канал и каждый день читайте лучшие материалы про AI переведенные на русский!

Нашли интересную статью для перевода? Пришлите нашему боту: @ailongreadsbot

Мой обзор GPT-5.3-Codex

Мой обзор GPT-5.3-Codex

Полная автономность достигнута

TL;DR

Что хорошо

Что не очень

Каждый скачок меняет мой рабочий процесс, и это — большой скачок

Главное отличие: она принимает решения, которые принял бы я сам

Мультиагентное взаимодействие наконец стало реальностью

Ключ к успеху: валидация превращает это в настоящего агента

Она даже использует скиллы без указаний

Первая модель, от которой я спокойно отхожу

Качество кода тоже лучше

Она использует время как хороший инженер

Работа между репозиториями — это нечто (в хорошем смысле)

Она может замкнуть цикл на деплойменте (Railway CLI)

Когда что использовать (моё реальное правило выбора)

Она лучше, но менее увлекательна

Заметки на полях

Проектирование промптов и агентов

Повествование о статусе может сбоить

Итоговые отчёты могут быть слишком техническими

Почему я не обозрел Mac-приложение

Эта модель изменила то, как я работаю

Report Page