От транзистора до токена

@ai_longreads

Глубокий технический анализ стека инференса на Apple Silicon — от кремния до агентных систем, от маркетинговых цифр до реальной архитектуры.

Это AI-перевод статьи, сделанный каналом Про AI: Лучшие Статьи и Исследования.

От транзистора до токена

From Transistor to Token Автор: thbrdy Оригинальный текст:

Маркетинговое число

Apple Neural Engine в M4 позиционируется с показателем 38 TOPS. Проект реверс-инжиниринга maderix, набравший 5 300 звёзд на GitHub, намерял 19 TFLOPS. Объяснение простое: Apple считает INT8-операции с удвоенной скоростью относительно FP16, следуя индустриальной конвенции. Но аппаратно INT8-входы деквантизируются до FP16 перед вычислением. Удвоение — нотационное, а не физическое.

Назовём это линзой: криминалистический подход к стеку. На каждом уровне стека инференса (инференс, вывод модели) — от кремния до фреймворка, от системы до модели и приложения — заявленное число и реальная архитектура под ним расходятся. Для понимания возможностей ИИ на устройстве необходимо видеть сквозь три слоя абстракции, где презентация и архитектура расходятся. Этот разрыв — не обман. Это расстояние между спецификацией, оптимизированной для сравнительных покупок, и архитектурой, оптимизированной для вычислений.

ANE как свёрточный движок

Главное открытие реверс-инжиниринга maderix: Apple Neural Engine не выполняет отдельные инструкции. Он принимает скомпилированный граф нейронной сети и исполняет его целиком, атомарно. Нет параллелизма на уровне инструкций, нет конвейера (пайплайн, конвейер обработки), который можно застопорить, нет предсказателя переходов, который можно запутать. Вы передаёте граф — он выполняет граф. У этого есть последствие, которое не фиксирует ни один бенчмарк (бенчмарк, эталонный тест). Выражение умножения матриц как свёртки 1×1 даёт 3-кратный прирост пропускной способности, потому что аппаратура и ЕСТЬ свёрточный движок, а matmul — лишь прокладка. Оборудование было спроектировано не для гибкого выполнения произвольных нейронных вычислений, а для чрезвычайно эффективного выполнения конкретных нейронных вычислений.

ANE был создан для задач, которые Apple решала в 2017 году: Face ID в момент, когда вы смотрите на телефон, вычислительная фотография, работающая с каждым кадром до того, как вы его увидите, Live Text, распознающий символы в потоке камеры. Плотный, структурированный инференс при нулевом потреблении в простое. Ключевая фраза — «при нулевом потреблении в простое»: когда вы не используете Face ID, ANE не потребляет энергию вообще. Для этих задач ANE не просто хорош. Это, вероятно, самое энергоэффективное оборудование для нейронных вычислений, когда-либо развёрнутое в потребительском масштабе. Делать невидимые структуры видимыми начинается здесь — на кремниевом уровне, где маркетинговое число и архитектурная реальность расходятся.

Для чего ANE не был спроектирован: пошаговая авторегрессионная генерация токенов (токены, единицы текста), где каждая генерация токена требует отдельного прохода через веса модели. Модель атомарного выполнения графа означает, что нет способа стримить частичные результаты или чередовать генерацию с другой работой. Каждый токен — это полное выполнение графа, и накладные расходы на диспетчеризацию, незначительные для камерного конвейера, обрабатывающего 30 кадров в секунду, становятся доминирующими, когда нужны сотни вызовов диспетчеризации в секунду.

У архитектуры есть жёсткая граница. При рабочем наборе менее 32 МБ встроенная SRAM ANE обеспечивает пиковую пропускную способность. При превышении производительность падает примерно на 30%, когда данные перетекают в DRAM. Этот обрыв SRAM определяет, что ANE может и не может делать эффективно, и он невидим ни в одной опубликованной спецификации.

Шестнадцать ядер Neural Engine присутствуют в каждом варианте M5, без изменений по сравнению с M4. Apple не масштабировала ANE. Она масштабировала нечто совершенно другое.

Энергоэффективность на кремниевом уровне

Прежде чем рассказать историю масштабирования — история эффективности. При пиковом потреблении 2,8 Вт ANE M4 достигает 6,6 TFLOPS/Вт. Базовый GPU M4 — 1,0 TFLOPS/Вт. Для сравнения с дата-центрами: A100 выдаёт 0,08 TFLOPS/Вт, H100 — 0,13 TFLOPS/Вт. ANE в 50–80 раз энергоэффективнее на операцию с плавающей точкой, чем лучшие GPU дата-центров на планете.

Не маркетинг. Физика. Но физика, применённая к конкретному шаблону вычислений, доступ к которому осуществляется через CoreML — чьи накладные расходы съедают большую часть преимущества.

CoreML, публичный фреймворк машинного обучения Apple, добавляет 2–4-кратные накладные расходы для мелких операций по сравнению с прямым доступом к ANE. Минимальный порог диспетчеризации составляет примерно 0,095 миллисекунды на операцию, что означает: для умножения матриц 256×256, занимающего 0,006 мс реального вычисления ANE, накладные расходы CoreML через XPC и IOKit потребляют 94% реального времени. Существует потолок в 119 компиляций на процесс. Планировщик — чёрный ящик: статья Orion (arXiv:2603.06728) каталогизировала 20 ограничений ANE, 14 из которых ранее не были документированы. Разработчики не могут принудительно использовать ANE, не могут инспектировать программы ANE и не могут выполнять вычисление градиентов на этом оборудовании. Если хотя бы один слой модели несовместим с ANE, CoreML может откатить всю модель на CPU.

Оборудование выдающееся. Программная поверхность — узкое место.

Удвоение — нотационное, а не физическое.

Вопрос приватных API

Под публичной поверхностью CoreML скрывается более 40 приватных Objective-C классов. _ANEClient обходит CoreML полностью. Дескрипторы моделей в памяти позволяют генерировать программы во время выполнения без конвейера компиляции на диск, который требует CoreML. Проект maderix продемонстрировал обучение на оборудовании, которое Apple позиционирует как предназначенное только для инференса — доказательство концепции, показывающее, что разрыв между «ускорителем инференса» и «вычислителем общего назначения» у́же, чем предполагает API-поверхность Apple. Проект autoresearch-ANE операционализировал это доказательство концепции в автономный экспериментальный цикл: храповик autoresearch Карпати, работающий напрямую на Neural Engine через _ANEClient и IOSurface. Динамический конвейер весов упаковывает веса в IOSurface-входы рядом с активациями; ядра компилируются один раз при запуске, и последующие обновления весов требуют только копирования памяти, а не перекомпиляции. GPT-модель с 67,6 миллионами параметров обучается за 99 мс на шаг на ANE — в 8 раз быстрее, чем путь через MPS на том же кремнии.

Но строить на приватных API — это строить на песке. Apple может изменить внутренние интерфейсы без предупреждения, и любое приложение, зависящее от _ANEClient, не может быть допущено в App Store. Приватная поверхность API доказывает возможность, но не является платформой для разработки. Инженерная реальность — это аппаратный ускоритель, чья измеренная производительность мирового класса, а доступная производительность опосредована через CoreML, который накладывает порядковые накладные расходы на операции, наиболее релевантные для современных рабочих нагрузок ИИ.

Это противоречие структурное, а не случайное. Apple спроектировала ANE для собственного потребления (камерный конвейер, Siri, диктовка на устройстве) и предоставила CoreML как управляемый интерфейс, который ставит стабильность системы выше контроля разработчика. Для собственных задач Apple, где полный граф модели известен на этапе компиляции и оптимизирован от начала до конца, ANE — именно то, что нужно. Для открытого, быстро меняющегося мира инференса больших языковых моделей (большая языковая модель) CoreML становится ограничением.

Система

M5 — это архитектурное заявление, замаскированное под обновление спецификации. Fusion Architecture от Apple соединяет два 3-нм кристалла в единую систему-на-чипе. Кристалл 1 несёт CPU, Neural Engine и контроллеры ввода-вывода. Кристалл 2 несёт GPU, медиа-движки и контроллеры памяти. M5 Max удваивает кристалл 2: 40 ядер GPU, 614 ГБ/с пропускной способности памяти.

Архитектурный поворот не в количестве кристаллов. Он в том, что находится внутри ядер GPU. Каждое ядро GPU M5 содержит Neural Accelerator — выделенное оборудование для нейронных вычислений, подключённое напрямую к графическому конвейеру и программируемое через новые тензорные API Metal 4 (MTLTensor, MTL4MachineLearningCommandEncoder, Metal Performance Primitives). Вычисления ИИ теперь масштабируются с количеством ядер GPU: 10 Neural Accelerators на M5, 20 на M5 Pro, 40 на M5 Max. Эра выделенного фиксированного сопроцессора закончилась: нейронные вычисления теперь растут вместе с чипом.

Собственный маркетинг Apple рассказывает эту историю. В пресс-релизе M5 16-ядерный Neural Engine упоминается ровно один раз, в одном предложении, привязанном к потребительским функциям «Apple Intelligence». Neural Accelerators в ядрах GPU получают заявления о производительности, упоминание LM Studio и прямую связь между 614 ГБ/с пропускной способности и «более быстрой генерацией токенов для LLM». Сама единица измерения сменилась: никакой цифры TOPS вообще (метрика, которую Apple использовала от M1 до M4), заменённая на «более чем 4-кратный пиковый GPU-вычислительный потенциал для ИИ».

Измерение сменилось, потому что сменилась аппаратная цель. И этот сдвиг раскрывает стратегическую ставку Apple: будущее вычислений ИИ на устройстве — не выделенный ускоритель, простаивающий между активациями камеры. Это нейронные вычисления, вплетённые в ткань GPU, масштабируемые вместе с кремнием, программируемые через существующую экосистему разработчиков Metal.

Это ставка против собственной предыдущей архитектуры Apple. ANE был ответом на вопрос «как запускать нейронные сети на телефонах, не убивая батарею?» GPU Neural Accelerators — ответ на другой вопрос: «как сделать ноутбук основной платформой инференса для моделей, которых не существовало, когда проектировался ANE?»

Два режима инференса

Это различие — prefill (предзаполнение) и decode (декодирование) — именно то, что большинство обзоров бенчмарков сжимают в одно число.

Prefill — первая фаза инференса LLM: обработка всего входного промпта целиком. Она ограничена вычислениями. Больше FLOPS — быстрее prefill. Neural Accelerators M5 Max дают 3,5–4-кратное улучшение по сравнению с M4 Max. Промпт на 10 000 токенов, который занимал 81 секунду на M4 Max, сокращается до 18 секунд на M5 Max, согласно бенчмаркам MacStories. Это превращает рабочие процессы с длинным контекстом из «ждать минуты» в «ждать секунды».

Decode — вторая фаза: генерация токенов по одному. Она ограничена пропускной способностью памяти. Каждый токен требует чтения весов модели из памяти, и скорость чтения определяет скорость генерации. 614 ГБ/с M5 Max против 546 ГБ/с M4 Max дают 12% улучшение. Llama 70B при квантизации Q4: примерно 10 токенов в секунду, вместо примерно 7. Реально. Но скромно.

Маркетинговый заголовок — «в 4 раза быстрее ИИ» — лидирует с prefill, потому что число больше. Но prefill происходит один раз на промпт. Decode определяет текущий опыт. Для агентных (агентный) рабочих процессов, обрабатывающих большие контекстные окна, и RAG-конвейеров (генерация с дополнением из поиска), поглощающих длинные документы, улучшение prefill трансформационно: системный промпт на 10 000 токенов, который раньше обрабатывался больше минуты, теперь укладывается менее чем в двадцать секунд, делая паттерны использования инструментов с богатым контекстом практичными впервые на локальном оборудовании. Для разговорного чата 12-процентный прирост decode — это то, что вы ощущаете. Разница между 7 ток/с и 10 ток/с реальна, но едва ощутима — оба значения ниже порога примерно 15 ток/с, при котором вывод ощущается плавным, а не вымученным.

Это различие важно для решений о покупке, для интерпретации бенчмарков и для понимания, откуда придёт следующее значимое улучшение. Если вы ограничены вычислениями (prefill-тяжёлые задачи), M5 — поколенческий скачок. Если вы ограничены пропускной способностью (decode-тяжёлые задачи), M5 — инкрементальный шаг, и следующий значимый скачок требует либо большей пропускной способности памяти (M5 Ultra, прогнозируемый на конец 2026), либо архитектурных изменений в самих моделях, снижающих количество чтений памяти на токен.

Скрытая переменная

На идентичном оборудовании M5 Max, при запуске одной и той же модели с одинаковым уровнем квантизации, выбор среды исполнения даёт 2–3-кратное отклонение в измеренной производительности. MLX, фреймворк Apple для исследований с открытым исходным кодом, работает на 20–30% быстрее, чем llama.cpp на Apple Silicon благодаря нулевому копированию в единой памяти и оптимизированным вычислительным шейдерам Metal. CoreML добавляет 2–4-кратные накладные расходы для мелких операций. Прогнозируемые 22–32 ток/с через MLX против измеренных 10 ток/с через формат GGUF в llama.cpp: один и тот же чип, одна и та же модель, одна квантизация — фреймворк и есть переменная.

Эта вариация невидима для любого, кто читает одно число бенчмарка. «M5 Max запускает Llama 70B на 10 ток/с» — это утверждение о производительности одной среды исполнения на одной аппаратной конфигурации. Это не утверждение о возможностях оборудования.

Маркетинговый заголовок лидирует с числа prefill, потому что оно больше. Но prefill происходит один раз на промпт; decode определяет текущий опыт.

Независимая валидация

Набор бенчмарков Зискинда обеспечивает наиболее строгие независимые измерения производительности M5 Max. Тестирование Stream Triad показало устойчивую пропускную способность памяти 351 ГБ/с — на 13% выше M4 Max и превышающую 337 ГБ/с настольного чипа M3 Ultra. Ноутбук, превосходящий собственный настольный кремний Apple по устойчивой пропускной способности.

По prefill заявление о 4-кратном улучшении подтверждается. Gemma 34B при квантизации Q4: 4 468 ток/с на M5 Max против 1 855 на M4 Max и 2 959 на M3 Ultra. M5 Max в ноутбуке обходит настольный M3 Ultra по инференсу, ограниченному вычислениями.

По decode, фазе, ограниченной пропускной способностью, иерархия восстанавливается в точности, как предсказывает физика. Генерация токенов на плотных моделях: 65 ток/с на M5 Max против 61 на M4 Max и 82 на M3 Ultra. Больше пропускной способности — больше токенов. 819 ГБ/с M3 Ultra дают ему преимущество, которое никакая оптимизация вычислений не может преодолеть, когда узким местом является чтение из памяти.

Конкурентный ландшафт

Сравнение Apple Silicon с конкурентами зависит от размера модели, и картина переворачивается на 30 миллиардах параметров.

Ниже 30B дискретные GPU NVIDIA доминируют. RTX 5090 обеспечивает 1 790 ГБ/с пропускной способности памяти и генерирует токены в 3–5 раз быстрее M5 Max. Если модель вмещается в 32 ГБ VRAM, ценностное предложение Apple по соотношению цена/производительность рушится.

Выше 70B у M5 Max нет конкурентов в ноутбучном классе. Его 128 ГБ единой памяти загружает Llama 70B при квантизации Q6 (примерно 55 ГБ) полностью в быструю память с запасом. DGX Spark от NVIDIA сравним по объёму при 128 ГБ, но обеспечивает менее половины пропускной способности — 273 ГБ/с. Strix Halo от AMD предлагает тот же объём памяти, вдвое меньшую пропускную способность и втрое ниже цену — $2 348, тёмная лошадка соотношения цена/производительность.

Зона пересечения, 30–50 миллиардов параметров — это область, где архитектурное решение становится зависимым от задачи, а не определяется спецификациями. Модель на 35B при Q4 требует 18 ГБ памяти. Она помещается на RTX 5090 с запасом, и преимущество 5090 в чистой пропускной способности обеспечивает заметно более быстрый decode. Но добавьте контекстное окно на 128K — и KV-кэш (кэш ключей и значений) вытолкнет общие требования к памяти за 32 ГБ. Внезапно модель, которая «помещалась» на GPU, больше не помещается с нужным ей контекстом. Архитектуры единой памяти не имеют этого обрыва: 128 ГБ — это 128 ГБ, гибко разделяемые между весами, KV-кэшем и накладными расходами ОС.

Ни одна отдельная характеристика M5 Max не лучшая в классе. Преимущество — в комбинации: 128 ГБ единой памяти, 614 ГБ/с пропускной способности, 40 Neural Accelerators, форм-фактор ноутбука и 50-ваттное энергопотребление. Ни одно конкурирующее устройство не объединяет всё это вместе.

Термическая реальность

Чиплетный дизайн Fusion Architecture термически разделяет тайлы CPU и GPU — улучшение по сравнению с монолитными кристаллами при одновременной нагрузке. Но 14-дюймовый корпус всё ещё троттлит. Устойчивая мощность CPU падает примерно с 75 Вт до 50 Вт по мере нагрева SoC. GPU достигает пика в 80 Вт кратковременно, прежде чем установиться на более низком устойчивом уровне.

Генерация токенов, будучи ограниченной пропускной способностью, а не вычислениями, не нагружает термический конверт. Prefill ОГРАНИЧЕН вычислениями и будет упираться в термические пределы 14-дюймового корпуса при обработке длинного контекста. 16-дюймовый MacBook Pro — не премиальное обновление. Это конструктивное ограничение для устойчивых задач ИИ.

Деталь, говорящая о более широкой истории эффективности: потребление всей системы в простое — 7,1 Вт, снижение с 7,6 Вт у M4 Max. Даже в покое архитектура становится эффективнее.

За пределами одной машины

Что происходит, когда одной машины недостаточно?

EXO Labs предоставляет наиболее полный ответ с открытым исходным кодом: фреймворк для превращения гетерогенных потребительских устройств в единый кластер инференса. Лицензия Apache 2.0, 42 000 звёзд на GitHub, представлен на собственном стенде Apple на NeurIPS с запуском DeepSeek v3.2 со скоростью 25 ток/с на четырёх Mac Studio с M3 Ultra.

Общепринятое мнение гласит, что распределённый инференс на потребительском оборудовании всегда расплачивается критическим штрафом задержки. Thunderbolt 5 RDMA переворачивает это уравнение. Remote Direct Memory Access позволяет GPU одной машины читать память другой напрямую, минуя ядро ОС и снижая межустройственную задержку с примерно 300 микросекунд по TCP до 3–50 микросекунд по RDMA. Бенчмарки Джеффа Гирлинга в декабре 2025 года на кластере из четырёх Mac Studio с M3 Ultra и суммарной памятью 1,5 ТБ продемонстрировали последствия: Qwen3 235B на 31,9 ток/с, DeepSeek V3.1 671B на 32,5 ток/с, Kimi K2 Thinking с триллионом параметров на 28,3 ток/с. Для сравнения, llama.cpp по стандартному TCP деградирует с добавлением узлов — 20,4 ток/с падает до 15,2 ток/с на Qwen3 235B — потому что 300-микросекундная задержка TCP накапливается в каждой точке синхронизации.

Гибрид Spark+Mac делает разделение prefill/decode архитектурно конкретным. DGX Spark от NVIDIA имеет 100 TFLOPS вычислительной мощности, но только 273 ГБ/с пропускной способности — соотношение вычислений к пропускной способности 366 FLOP/байт. M3 Ultra имеет 26 TFLOPS, но 819 ГБ/с — соотношение 31,7 FLOP/байт. EXO направляет prefill на Spark (богат вычислениями), а decode на Mac (богат пропускной способностью), достигая 2,8-кратного общего ускорения. Реализация использует потоковую передачу KV-кэша слой за слоем вместо массового переноса, так что коммуникация перекрывается вычислениями.

Но сам M5 Max сужает окно, где кластеризация экономически оправдана. Инференс 70B на одной машине теперь маргинально жизнеспособен при 11–15 ток/с. M5 Ultra — подтверждённый через утечки прошивок (идентификатор чипа T6052/H17D в iOS 26.3), Гурмана из Bloomberg и Куо из TF International Securities, с ожидаемой презентацией на WWDC в июне — сдвинет инференс на одной машине на территорию, которая сейчас требует многоузловых кластеров. Если Ultra следует устоявшейся формуле Apple удвоения Max, прогнозируемые характеристики — примерно 80 ядер GPU, 80 GPU Neural Accelerators, 1 228 ГБ/с пропускной способности памяти и 256–512 ГБ единой памяти.

Математика инференса меняется качественно, а не просто инкрементально. При 256 ГБ MoE-модель Qwen 3.5 на 397B целиком помещается в память — все веса экспертов резидентны, на токен считываются только 17B активных параметров. Прогнозируемая скорость decode: 60–74 ток/с, откалиброванная по измеренным показателям эффективности M4 Max и M3 Ultra. Модель MoE фронтирного класса на разговорной скорости на одном настольном компьютере. При 512 ГБ DeepSeek V3 с 671 миллиардом параметров становится жизнеспособным при 27–33 ток/с — по сути, повторяя результат четырёхузлового кластера M3 Ultra Гирлинга при четверти стоимости и нулевых затратах на управление кластером.

Аргумент в пользу распределённого инференса не исчезает. Он сужается. Кластеризация EXO сохраняет преимущество для моделей, превышающих 512 ГБ, для обслуживания нескольких пользователей, где конвейерный параллелизм масштабирует пропускную способность по узлам, и для гетерогенной маршрутизации prefill/decode, где машины, богатые вычислениями, и машины, богатые пропускной способностью, дополняют друг друга. Но для одного пользователя, запускающего одну модель, помещающуюся в память, M5 Ultra сведёт обоснование для кластера за $40 000 к настольному компьютеру за $10 000. Модели, требующие распределённого потребительского инференса, продолжают расти, но растёт и потолок одной машины — и потолок растёт быстрее.

Экосистема сходится соответственно: MLX для вычислений, JACCL для межустройственной коммуникации, Metal 4 для прозрачного доступа к GPU.

Тезис об инференс-машине

Фрейминг Акаша Гупты ставит вопрос прямо: «Apple проектирует кремний исходя из одного допущения — основная рабочая нагрузка профессионального ноутбука в 2026 году — это локальный запуск LLM».

Ценообразование — доказательство. «Повышение цены» на $200 для M5 Pro функционально нулевое: Apple удвоила базовый объём накопителя, чтобы его поглотить. Конфигурации для инференса — 128 ГБ единой памяти для загрузки моделей 70B+ — начинаются от $5 000. Apple упомянула LM Studio, стороннее приложение для локального инференса, в собственных пресс-материалах. Пресс-релиз M5 лидирует с метрик вычислений ИИ раньше, чем упоминает видеомонтаж.

Ни одна отдельная характеристика не лучшая в классе; пакет — лучший.

Конвергентный дизайн

Оборудование определяет, что возможно. Вопрос — что на нём запускается и вписываются ли модели, создаваемые в других местах, в ограничения Apple.

Qwen 3.5, выпущенная Alibaba в 2026 году, даёт наиболее показательный кейс. Архитектура заменяет 75% стандартных слоёв внимания на Gated DeltaNet — рекуррентный механизм, поддерживающий матрицу состояния фиксированного размера вместо растущего KV-кэша. Основное уравнение:

S_t = α_t · S_{t-1} · (I − β_t k_t k_t^T) + β_t v_t k_t^T

Два взаимодополняющих механизма действуют внутри этого правила обновления. Вентиль затухания αt глобально очищает память при смене контекста — мягкий сброс, когда модель определяет, что предыдущее состояние более не релевантно. Дельта-правило `(I − βt kt kt^T)` выполняет точечные хирургические обновления конкретных пар ключ-значение — математический эквивалент применения одного шага онлайн стохастического градиентного спуска (градиентный спуск) к состоянию модели на каждом токене. Состояние не просто хранится. Оно непрерывно уточняется.

Каждый слой Gated DeltaNet поддерживает примерно 32 КБ состояния на голову внимания, независимо от длины последовательности. Обработала ли модель 1 000 токенов или 128 000 — объём памяти слоя DeltaNet идентичен. Стандартное внимание, напротив, накапливает KV-кэш, растущий линейно с каждым обработанным токеном, и этот кэш должен считываться из памяти на каждом последующем шаге генерации.

Арифметика пропускной способности делает архитектурные последствия конкретными. Модель Qwen 3.5 27B имеет 48 слоёв DeltaNet и 16 полных слоёв внимания. При длине контекста 128K в точности FP16 16 слоёв внимания требуют 52,4 ГБ KV-кэша. 48 слоёв DeltaNet требуют 25,2 МБ. Разница в 2 000 раз. Без гибридной архитектуры контекст 128K на модели 27B потребовал бы более 200 ГБ памяти — невозможно на любой потребительской машине. С ней модель комфортно помещается в 128 ГБ единой памяти с запасом для самих весов.

Совпадение случайно. Alibaba нигде в документации Qwen 3.5 не упоминает Apple Silicon. Архитектура была спроектирована для экономики обучения в дата-центрах и масштабирования длинного контекста. Хронология однозначно идёт от исследования к облачному развёртыванию и далее к доступности на периферии. Но архитектура обладает эмерджентными свойствами, совпадающими с развёртыванием на периферии, потому что обе среды разделяют одно и то же фундаментальное физическое узкое место: пропускную способность памяти на токен.

Соотношение 3:1 слоёв DeltaNet к полным слоям внимания было эмпирически настроено на качество: исследование абляций Kimi Linear показало, что 3:1 достигает наименьших потерь на валидации среди всех протестированных соотношений. Одновременно оказалось, что это именно то соотношение, которое позволяет контексту 128K+ поместиться в потребительскую память. Это конвергентная оптимизация под общими физическими ограничениями, а не намеренное сотрудничество между разработчиком чипов в Купертино и архитектором модели в Ханчжоу.

Mixture of Experts (смесь экспертов) усиливает преимущество. Флагман на 397B активирует только 17B параметров на токен — 10 маршрутизируемых экспертов плюс 1 разделяемый из 512 всего. При квантизации Q4 чтение из памяти на токен составляет 8,5 ГБ. На M5 Max при 614 ГБ/с теоретический потолок — примерно 72 ток/с. Вариант 35B-A3B активирует только 3B параметров на токен — Зискинд выбрал эту модель для своих бенчмарков M5 Max, потому что она спроектирована для этого аппаратного профиля.

Меньшие плотные модели непропорционально сильны. Модель 9B набирает 81,7 на GPQA Diamond. Есть спорный базовый показатель — GPT-OSS-120B показала 71,5 в одной оценке и 80,1 по данным VentureBeat, что сужает преимущество Qwen 3.5 9B с 10,2 пункта до 1,6. Но Artificial Analysis независимо оценивает её как имеющую наивысший Intelligence Index среди всех моделей до 10B.

Конвергенция не ограничена Qwen. Kimi Linear независимо пришёл к гибридному соотношению 3:1. Granite 4.0 доводит до 9:1. RecurrentGemma использует примерно 2:1. RWKV-7 полностью отказывается от полного внимания. Предостерегающий контрпример: MiniMax отказалась от гибридного линейного внимания после деградации качества на сложном многошаговом рассуждении (рассуждение, цепочка мыслей) в большом масштабе. Соотношение эмпирическое, а не теоретически выведенное, и может не сохраниться при увеличении моделей.

Тезис не в том, что эти модели были построены для Apple Silicon. Тезис в том, что физические ограничения, формирующие экономику дата-центров, и физические ограничения, формирующие потребительское оборудование, сходятся, и архитектуры, спроектированные для навигации по одному набору ограничений, обладают эмерджентными свойствами, подходящими для другого. Архитектор дата-центра, пытающийся обслужить 1 000 пользователей с одного кластера GPU, сталкивается с тем же ограничением пропускной способности на токен, что и пользователь ноутбука, пытающийся запустить одну модель локально. Оба выигрывают от архитектур, считывающих меньше байт на токен. Это совпадение будет углубляться, пока обе среды остаются ограниченными пропускной способностью.

Есть и фреймворковое измерение этой конвергенции. MLX запускает слои DeltaNet Qwen 3.5 в 2 раза быстрее, чем llama.cpp на Apple Silicon, потому что архитектура нулевого копирования единой памяти MLX особенно хорошо подходит для рекуррентных обновлений состояния, которые требует DeltaNet. Реализация DeltaNet в llama.cpp признана неоптимизированной (GitHub issue #20225), и разрыв в производительности может сократиться. Но по состоянию на начало 2026 года среда исполнения, которую вы выбираете для запуска данной модели на Apple Silicon, даёт столько же вариации, сколько и сама архитектура модели — скрытая переменная, наложенная на скрытую переменную.

Продолжение во второй части.

Подпишитесь на канал и каждый день читайте лучшие материалы про AI переведенные на русский!

Нашли интересную статью для перевода? Пришлите нашему боту: @ailongreadsbot

От транзистора до токена

От транзистора до токена

Маркетинговое число

ANE как свёрточный движок

Энергоэффективность на кремниевом уровне

Вопрос приватных API

Система

Два режима инференса

Скрытая переменная

Независимая валидация

Конкурентный ландшафт

Термическая реальность

За пределами одной машины

Тезис об инференс-машине

Конвергентный дизайн

Report Page