vLLM Semantic Router v0.2 Athena: ClawOS, Model Refresh, and the System Brain

📖 Источник: vllm.ai

vLLM Semantic Router v0.2 Athena: Саммари

Краткое введение

Релиз v0.2 Athena представляет собой масштабное обновление vLLM Semantic Router — от простого маршрутизатора запросов к интеллектуальной операционной системе для работы с множеством моделей и мультиагентных развёртываний. Версия Athena перестраивает модельный стек, расширяет возможности маршрутизации в области безопасности, семантического кэширования, памяти и RAG, а также вводит экспериментальный слой ClawOS для оркестрации нескольких OpenClaw-систем. Релиз содержит 304 коммита от 43 контрибьюторов, созданных за период с 5 января по 9 марта 2026 года.

1. Полное обновление модельного стека

1.1 Новая основа: mmBERT и мультимодальные эмбеддинги

Ядром обновления стал переход на новую долгоконтекстную мультиязычную базу mmbert-embed-32k-2d-matryoshka и семейство классификаторов mom-multilingual-class. Это означает, что поверхности маршрутизации для эмбеддингов, интента, джейлбрейка, PII, обратной связи и фактчекинга теперь используют общую mmBERT-основу вместо фрагментированной архитектуры.

Ключевые характеристики новых моделей:

📊 Таблица: Модель | Параметры | Контекст | Языки | Особенности

mmbert-embed-32k-2d-matryoshka - Параметры: 307M, Контекст: 32K, Языки: 1800+, Особенности: STS 80.5, 768d→256dtruncation с ~99% качества, early exit 22L→6L для 3.3x ускорения
multi-modal-embed-small - Параметры: ~120M, Контекст: —, Языки: —, Особенности: Унифицированное 384d пространство для текста, изображений и аудио, Audio-Text R@1 = 36.4%

Семейство mom-multilingual-class включает пять основных задач маршрутизации и безопасности, каждая доступная в merged и LoRA-форматах:

📊 Таблица: Задача | Merged модель | LoRA модель

Intent - Merged модель: mmbert32k-intent-classifier-merged, LoRA модель: mmbert32k-intent-classifier-lora
Jailbreak - Merged модель: mmbert32k-jailbreak-detector-merged, LoRA модель: mmbert32k-jailbreak-detector-lora
PII - Merged модель: mmbert32k-pii-detector-merged, LoRA модель: mmbert32k-pii-detector-lora
Fact-check - Merged модель: mmbert32k-factcheck-classifier-merged, LoRA модель: mmbert32k-factcheck-classifier-lora
Feedback - Merged модель: mmbert32k-feedback-detector-merged, LoRA модель: mmbert32k-feedback-detector-lora

1.2 Производительность: ONNX + CK Flash Attention

Новый модельный стек поддерживает ускорение через ONNX и CK Flash Attention. На GPU AMD Instinct MI300X в реальном маршрутизационном пути Envoy (:8801) → ext_proc → SR (:50051) достигнуты следующие результаты:

📊 Таблица: Размер запроса | ONNX + GPU | ONNX + CPU | Candle + CPU

~500 токенов - ONNX + GPU: 22 мс, ONNX + CPU: 853 мс, Candle + CPU: 1053 мс
~2000 токенов - ONNX + GPU: 31 мс, ONNX + CPU: 1814 мс, Candle + CPU: 1805 мс
~8000 токенов - ONNX + GPU: 128 мс, ONNX + CPU: 4796 мс, Candle + CPU: 1830 мс

Для извлечения домена ONNX+GPU показал 10.2 мс (~500 токенов), 16.3 мс (~2000 токенов), 36.1 мс (~8000 токенов), тогда как ONNX+CPU — 630/833/743 мс соответственно.

CK Flash Attention демонстрирует кардинальное превосходство над SDPA:

📊 Таблица: Длина последовательности | SDPA | CK Flash Attention | Результат

4096 - SDPA: 167 мс, CK Flash Attention: 51 мс, Результат: 3.3x быстрее
8192 - SDPA: OOM, CK Flash Attention: 105 мс, Результат: SDPA падает, FA работает
16384 - SDPA: OOM, CK Flash Attention: 259 мс, Результат: FA работает при 16K
32768 - SDPA: OOM, CK Flash Attention: 756 мс, Результат: FA достигает полных 32K

При нагрузке из 20 одновременных запросов по 32K токенов CK Flash Attention завершил с медианой 9872 мс и p95 14862 мс при нулевых OOM.

Техническая реализация FA включает кастомную ONNX Runtime custom-op библиотеку под ROCm, которая регистрирует com.ck::CKFlashAttention и вызывает AMD Composable Kernel tiled FMHA kernels напрямую. Граф-rewrite заменяет плотную SDPA подграфу на один узел CK Flash Attention.

2. Выбор модели как первоклассный примитив маршрутизации

Ключевое нововведение Athena — выбор модели стал явной частью системы, а не просто пунктом дорожной карты. Он реализован через обучаемые ML-селекторы и продвинутые стратегии выбора времени выполнения.

Позиция выбора модели в конвейере маршрутизации явная: система сначала извлекает сигналы, затем оценивает решения, и только после совпадения решения алгоритм выбирает конкретную модель из списка modelRefs этого решения.

Семейства методов выбора модели

📊 Таблица: Семейство | Метод | Описание

ML-based - Метод: KNN, Описание: Поиск похожих исторических запросов; ближайшие примеры голосуют за лучшую модель
ML-based - Метод: KMeans, Описание: Кластеризация запросов; назначение моделей на основе кластерных паттернов качества и эффективности
ML-based - Метод: SVM, Описание: Обучение нелинейных границ решений между предпочтениями моделей через RBF-классификатор
ML-based - Метод: MLP, Описание: Нейронный маршрутизатор для предсказания лучшей модели из эмбеддингов через Candle
Advanced - Метод: Static, Описание: Фиксированная модель по умолчанию для предсказуемости
Advanced - Метод: Latency-Aware, Описание: Выбор самого быстрого кандидата по данным TPOT и TTFT перцентилей
Advanced - Метод: Elo, Описание: Обучение на основе пользовательской обратной связи через Bradley-Terry рейтинговые обновления
Advanced - Метод: RouterDC, Описание: Сопоставление запросов с описаниями моделей через dual-contrastive similarity
Advanced - Метод: AutoMix, Описание: Начало с дешёвых моделей с эскалацией на основе самопроверки
Advanced - Метод: Hybrid, Описание: Смешивание нескольких методов с конфигурируемыми весами
Advanced - Метод: Thompson Sampling, Описание: Баланс exploration и exploitation онлайн
Advanced - Метод: GMTRouter, Описание: Персонализация выбора модели из мульти-turn истории через графовую маршрутизацию
Advanced - Метод: Router-R1, Описание: Использование внешней модели для рассуждения о запросе перед выбором

3. ClawOS — операционный слой для OpenClaw

Одна из самых смелых ставок Athena — ClawOS: экспериментальный операционный слой, позволяющий Semantic Router оркестрировать несколько OpenClaw-систем. OpenClaw — это базовая агентная платформа; ClawOS — слой оркестрации и операционного опыта поверх неё.

Через встроенные MCP-инструменты и чат-рабочие процессы пользователи могут:

Использовать естественноязычные разговоры для создания различных команд OpenClaw
Координировать их в реальном времени внутри общих комнат
Наблюдать состояние всей мульти-claw системы из одной точки

Возможности ClawOS:

Intelligent Routing для выбора модели по соотношению цена/качество
Safety Guardrails против джейлбрейков, утечки PII и галлюцинаций
Hierarchical Memory Storage для долгосрочного многошагового выполнения
Knowledge Sharing между агентами
Isolation & Team Management для мультиагентных операций
Natural-language MCP control для управления командами
Shared room chat для координации в реальном времени
Leader-and-worker collaboration

4. Память, RAG и состояние ответа в core runtime

Athena делает состояние основной функцией, а не побочной.

Память

Agentic Memory с Milvus storage
Hybrid memory search — комбинирование векторного сходства, BM25 и n-gram текстового сопоставления
Memory scoring
Llama Stack vector backends
Memory metrics для мониторинга
MINJA-защита от атак на инъекцию памяти
Response-level jailbreak gating перед сохранением в память
Cross-model cache sharing

RAG

Weighted hybrid search и RRF-режим
Настраиваемые BM25/n-gram параметры
Hybrid reranking на Milvus-бэкендах

Отладка

Router Replay с подключаемыми хранилищами
Per-decision isolation
Визуализация в dashboard

5. Сигналы: богаче, быстрее, безопаснее

Расширение сигнального слоя

📊 Таблица: Поверхность сигнала | Что добавлено | Значение

Core request understanding - Что добавлено: Language, latency, context, complexity-aware сигналы, Значение: Маршрутизатор рассуждает не только о теме
Control and routing context - Что добавлено: Modality и authz сигналы, Значение: Маршрутизация может ветвиться по медиа-интенту раньше
Feedback loop - Что добавлено: Feedback и preference классификаторы, Значение: Пользовательские сигналы становятся first-class входами
Semantic matching path - Что добавлено: Multimodal embedding, soft embedding rules, HNSW, Значение: Семантическое сопоставление шире и быстрее
Deterministic fast path - Что добавлено: BM25, n-gram fuzzy matching, regex, Значение: Аудируемый путь становится менее хрупким
Runtime confidence layer - Что добавлено: Dynamic confidence scoring, Значение: Решения используют богатое качество сигнала

Безопасность ближе к основному пути

📊 Таблица: Поверхность безопасности | Что добавлено

Jailbreak detection - Что добавлено: Продвинут в параллельные сигналы; classifier-based и contrastive multi-turn детекция
PII detection - Что добавлено: Параллельная обработка; расширенные policy и reveal controls
Tool safety - Что добавлено: Confidence-gated reranking для фильтрации инструментов
Hallucination handling - Что добавлено: Гибкая multi-level обработка ответа

Улучшенный keyword routing

BM25 для тематической маршрутизации через большие наборы ключевых слов
n-gram matching для устойчивой к опечаткам маршрутизации
regex для точного контроля паттернов

6. NLP-based prompt compression

Athena вводит новый примитив для долгого контекста: сжатие промптов перед извлечением сигналов.

📊 Таблица: Компонент | Реализация

Метод сжатия - Реализация: TextRank, position weighting, TF-IDF, novelty scoring
Позиция - Реализация: Сжатие только для signal extraction; оригинал идёт модели
Безопасность - Реализация: skip_signals сохраняет jailbreak и PII на оригинальном тексте
Путь - Реализация: Envoy STREAMED body mode + fast JSON processing

Результаты на MI300X:

End-to-end latency: 143 мс → 103 мс при ~16K токенов
Jailbreak signal extraction: 127 мс → 10 мс при сжатии 16K → 512 токенов

Это не LLM-суммаризатор — это детерминистический NLP-конвейер, встроенный в сигнальный путь.

7. Программируемый нейро-символический язык конфигурации

Ключевая тема Athena — маршрутизационная политика становится полноценным языком, а не набором YAML-фрагментов. Это Programmable Neural-Symbolic Configuration Language: типизированный конфигурационный язык, комбинирующий нейросигнальное извлечение с символической оценкой решений.

Практические реализации:

Полный DSL-компилятор
Визуальный builder
Расширенные dashboard CRUD для сигналов и решений
Улучшенные пути деплоя для Kubernetes
Улучшенное поведение перезагрузки конфига

Это позволяет LLM-агентам синтезировать политики маршрутизации из естественноязычных спецификаций.

8. Zero-config onboarding

Установка и первый запуск теперь образуют непрерывный поток. На macOS и Linux:

💻 Код (bash):

curl -fsSL https://vllm-semantic-router.com/install.sh | bash

Установщик:

Обнаруживает Python
Устанавливает vllm-sr в изолированное локальное окружение
Записывает launcher в ~/.local/bin/vllm-sr
Готовит Docker/Podman для локального serving
Автоматически запускает первый vllm-sr serve
Открывает dashboard

При первом запуске или vllm-sr serve из пустой директории система:

Автоматически создаёт .vllm-sr/router-defaults.yaml
Запускает dashboard в setup mode
Проводит через настройку первой модели
Записывает сгенерированный config.yaml только после активации

9. Dashboard как System Brain

Значительное улучшение UX dashboard:

Topology visualization с поддержкой тестовых запросов
Router Replay visualization
Evaluation API и поверхности оценки в dashboard
Улучшения мониторинга и observability
Reasoning-aware playground support
Readonly dashboard mode для демо и public beta
MCP tools support
Рефакторинг layout, mobile, landing-page, manager и monitoring

10. AMD ROCm становится first-class путём деплоя

AMD-путь теперь — канонический vllm-sr деплой, не побочный эксперимент:

Реальный ROCm-образ vllm-sr
AMD deployment playbook
Явный CLI для запуска на AMD GPU с ONNX-ускорением

💻 Код (bash):

vllm-sr serve --platform amd

Этот флаг выбирает ROCm-образ по умолчанию, передаёт AMD-платформу в container runtime, включает GPU-first конфиг и монтирует ROCm-устройства (/dev/kfd, /dev/dri).

ROCm-образ включает ONNX-backed router, ROCm ONNX Runtime и загружает AMD CK Flash Attention custom op. Доступен end-to-end AMD-путь с FA + GPU на ROCm через стандартный vllm-sr serve --platform amd.

11. Исследовательский и model-systems цикл

Athena — не только продуктовый релиз, но и исследовательский цикл:

Опубликован white paper Signal Driven Decision Routing for Mixture-of-Modality Models
Продвинуто мультимодальное и модальность-осознанное обучение моделей
Добавлено долгоконтекстное ускорение через CK Flash Attention, ONNX graph rewriting, ROCm-ориентированный inference
Усилен мост между исследованиями, артефактами обучения и production runtime

Итог и практические выводы

Ключевые достижения Athena:

Производительность: ONNX+GPU снижает latency до 22 мс для 500 токенов; CK Flash Attention работает при 32K контексте с 3.3x ускорением против SDPA и нулевыми OOM при 20 одновременных запросах.
Мультимодальность: Единое 384d пространство для текста, изображений и аудио; 1800+ языков с 32K контекстом.
Выбор модели: 13 методов от KNN до Router-R1; ML-based и advanced стратегии; явная позиция в конвейере после сигнального извлечения.
Операционный слой: ClawOS позволяет оркестрировать несколько OpenClaw-систем через естественный язык, чат-комнаты и иерархическую память.
Безопасность: Jailbreak и PII продвинуты в параллельные сигналы; MINJA-защита; response-level gating.
Prompt compression: NLP-based сжатие до 512 токенов снижает jailbreak signal extraction с 127 мс до 10 мс.
Zero-config onboarding: Однострочная установка с автоматическим созданием конфигурации и dashboard-first first-run experience.
AMD ROCm: Полноценный production-путь с FA + GPU через --platform amd.

Практические рекомендации:

Для новых пользователей: использовать one-line installer с последующей настройкой через dashboard
Для production на AMD: применять vllm-sr serve --platform amd с ONNX+Flash Attention
Для мультимодальных сценариев: задействовать multi-modal-embed-small для кросс-модального retrieval
Для сложных систем: использовать ClawOS для оркестрации команд агентов
Для долгих контекстов: включить prompt compression с skip_signals для sensitive классификаторов

📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ

vLLM Semantic Router v0.2 Athena: ClawOS, Model Refresh, and the System Brain

vLLM Semantic Router v0.2 Athena: Саммари

Краткое введение

1. Полное обновление модельного стека

1.1 Новая основа: mmBERT и мультимодальные эмбеддинги

1.2 Производительность: ONNX + CK Flash Attention

2. Выбор модели как первоклассный примитив маршрутизации

Семейства методов выбора модели

3. ClawOS — операционный слой для OpenClaw

4. Память, RAG и состояние ответа в core runtime

Память

RAG

Отладка

5. Сигналы: богаче, быстрее, безопаснее

Расширение сигнального слоя

Безопасность ближе к основному пути

Улучшенный keyword routing

6. NLP-based prompt compression

7. Программируемый нейро-символический язык конфигурации

8. Zero-config onboarding

9. Dashboard как System Brain

10. AMD ROCm становится first-class путём деплоя

11. Исследовательский и model-systems цикл

Итог и практические выводы

Report Page