vLLM Semantic Router v0.2 Athena: ClawOS, Model Refresh, and the System Brain
Data&AI Insights📖 Источник: vllm.ai
vLLM Semantic Router v0.2 Athena: Саммари
Краткое введение
Релиз v0.2 Athena представляет собой масштабное обновление vLLM Semantic Router — от простого маршрутизатора запросов к интеллектуальной операционной системе для работы с множеством моделей и мультиагентных развёртываний. Версия Athena перестраивает модельный стек, расширяет возможности маршрутизации в области безопасности, семантического кэширования, памяти и RAG, а также вводит экспериментальный слой ClawOS для оркестрации нескольких OpenClaw-систем. Релиз содержит 304 коммита от 43 контрибьюторов, созданных за период с 5 января по 9 марта 2026 года.
1. Полное обновление модельного стека
1.1 Новая основа: mmBERT и мультимодальные эмбеддинги
Ядром обновления стал переход на новую долгоконтекстную мультиязычную базу mmbert-embed-32k-2d-matryoshka и семейство классификаторов mom-multilingual-class. Это означает, что поверхности маршрутизации для эмбеддингов, интента, джейлбрейка, PII, обратной связи и фактчекинга теперь используют общую mmBERT-основу вместо фрагментированной архитектуры.
Ключевые характеристики новых моделей:
📊 Таблица: Модель | Параметры | Контекст | Языки | Особенности
- mmbert-embed-32k-2d-matryoshka - Параметры: 307M, Контекст: 32K, Языки: 1800+, Особенности: STS 80.5, 768d→256dtruncation с ~99% качества, early exit 22L→6L для 3.3x ускорения
- multi-modal-embed-small - Параметры: ~120M, Контекст: —, Языки: —, Особенности: Унифицированное 384d пространство для текста, изображений и аудио, Audio-Text R@1 = 36.4%
Семейство mom-multilingual-class включает пять основных задач маршрутизации и безопасности, каждая доступная в merged и LoRA-форматах:
📊 Таблица: Задача | Merged модель | LoRA модель
- Intent - Merged модель: mmbert32k-intent-classifier-merged, LoRA модель: mmbert32k-intent-classifier-lora
- Jailbreak - Merged модель: mmbert32k-jailbreak-detector-merged, LoRA модель: mmbert32k-jailbreak-detector-lora
- PII - Merged модель: mmbert32k-pii-detector-merged, LoRA модель: mmbert32k-pii-detector-lora
- Fact-check - Merged модель: mmbert32k-factcheck-classifier-merged, LoRA модель: mmbert32k-factcheck-classifier-lora
- Feedback - Merged модель: mmbert32k-feedback-detector-merged, LoRA модель: mmbert32k-feedback-detector-lora
1.2 Производительность: ONNX + CK Flash Attention
Новый модельный стек поддерживает ускорение через ONNX и CK Flash Attention. На GPU AMD Instinct MI300X в реальном маршрутизационном пути Envoy (:8801) → ext_proc → SR (:50051) достигнуты следующие результаты:
📊 Таблица: Размер запроса | ONNX + GPU | ONNX + CPU | Candle + CPU
- ~500 токенов - ONNX + GPU: 22 мс, ONNX + CPU: 853 мс, Candle + CPU: 1053 мс
- ~2000 токенов - ONNX + GPU: 31 мс, ONNX + CPU: 1814 мс, Candle + CPU: 1805 мс
- ~8000 токенов - ONNX + GPU: 128 мс, ONNX + CPU: 4796 мс, Candle + CPU: 1830 мс
Для извлечения домена ONNX+GPU показал 10.2 мс (~500 токенов), 16.3 мс (~2000 токенов), 36.1 мс (~8000 токенов), тогда как ONNX+CPU — 630/833/743 мс соответственно.
CK Flash Attention демонстрирует кардинальное превосходство над SDPA:
📊 Таблица: Длина последовательности | SDPA | CK Flash Attention | Результат
- 4096 - SDPA: 167 мс, CK Flash Attention: 51 мс, Результат: 3.3x быстрее
- 8192 - SDPA: OOM, CK Flash Attention: 105 мс, Результат: SDPA падает, FA работает
- 16384 - SDPA: OOM, CK Flash Attention: 259 мс, Результат: FA работает при 16K
- 32768 - SDPA: OOM, CK Flash Attention: 756 мс, Результат: FA достигает полных 32K
При нагрузке из 20 одновременных запросов по 32K токенов CK Flash Attention завершил с медианой 9872 мс и p95 14862 мс при нулевых OOM.
Техническая реализация FA включает кастомную ONNX Runtime custom-op библиотеку под ROCm, которая регистрирует com.ck::CKFlashAttention и вызывает AMD Composable Kernel tiled FMHA kernels напрямую. Граф-rewrite заменяет плотную SDPA подграфу на один узел CK Flash Attention.
2. Выбор модели как первоклассный примитив маршрутизации
Ключевое нововведение Athena — выбор модели стал явной частью системы, а не просто пунктом дорожной карты. Он реализован через обучаемые ML-селекторы и продвинутые стратегии выбора времени выполнения.
Позиция выбора модели в конвейере маршрутизации явная: система сначала извлекает сигналы, затем оценивает решения, и только после совпадения решения алгоритм выбирает конкретную модель из списка modelRefs этого решения.
Семейства методов выбора модели
📊 Таблица: Семейство | Метод | Описание
- ML-based - Метод: KNN, Описание: Поиск похожих исторических запросов; ближайшие примеры голосуют за лучшую модель
- ML-based - Метод: KMeans, Описание: Кластеризация запросов; назначение моделей на основе кластерных паттернов качества и эффективности
- ML-based - Метод: SVM, Описание: Обучение нелинейных границ решений между предпочтениями моделей через RBF-классификатор
- ML-based - Метод: MLP, Описание: Нейронный маршрутизатор для предсказания лучшей модели из эмбеддингов через Candle
- Advanced - Метод: Static, Описание: Фиксированная модель по умолчанию для предсказуемости
- Advanced - Метод: Latency-Aware, Описание: Выбор самого быстрого кандидата по данным TPOT и TTFT перцентилей
- Advanced - Метод: Elo, Описание: Обучение на основе пользовательской обратной связи через Bradley-Terry рейтинговые обновления
- Advanced - Метод: RouterDC, Описание: Сопоставление запросов с описаниями моделей через dual-contrastive similarity
- Advanced - Метод: AutoMix, Описание: Начало с дешёвых моделей с эскалацией на основе самопроверки
- Advanced - Метод: Hybrid, Описание: Смешивание нескольких методов с конфигурируемыми весами
- Advanced - Метод: Thompson Sampling, Описание: Баланс exploration и exploitation онлайн
- Advanced - Метод: GMTRouter, Описание: Персонализация выбора модели из мульти-turn истории через графовую маршрутизацию
- Advanced - Метод: Router-R1, Описание: Использование внешней модели для рассуждения о запросе перед выбором
3. ClawOS — операционный слой для OpenClaw
Одна из самых смелых ставок Athena — ClawOS: экспериментальный операционный слой, позволяющий Semantic Router оркестрировать несколько OpenClaw-систем. OpenClaw — это базовая агентная платформа; ClawOS — слой оркестрации и операционного опыта поверх неё.
Через встроенные MCP-инструменты и чат-рабочие процессы пользователи могут:
- Использовать естественноязычные разговоры для создания различных команд OpenClaw
- Координировать их в реальном времени внутри общих комнат
- Наблюдать состояние всей мульти-claw системы из одной точки
Возможности ClawOS:
- Intelligent Routing для выбора модели по соотношению цена/качество
- Safety Guardrails против джейлбрейков, утечки PII и галлюцинаций
- Hierarchical Memory Storage для долгосрочного многошагового выполнения
- Knowledge Sharing между агентами
- Isolation & Team Management для мультиагентных операций
- Natural-language MCP control для управления командами
- Shared room chat для координации в реальном времени
- Leader-and-worker collaboration
4. Память, RAG и состояние ответа в core runtime
Athena делает состояние основной функцией, а не побочной.
Память
- Agentic Memory с Milvus storage
- Hybrid memory search — комбинирование векторного сходства, BM25 и n-gram текстового сопоставления
- Memory scoring
- Llama Stack vector backends
- Memory metrics для мониторинга
- MINJA-защита от атак на инъекцию памяти
- Response-level jailbreak gating перед сохранением в память
- Cross-model cache sharing
RAG
- Weighted hybrid search и RRF-режим
- Настраиваемые BM25/n-gram параметры
- Hybrid reranking на Milvus-бэкендах
Отладка
- Router Replay с подключаемыми хранилищами
- Per-decision isolation
- Визуализация в dashboard
5. Сигналы: богаче, быстрее, безопаснее
Расширение сигнального слоя
📊 Таблица: Поверхность сигнала | Что добавлено | Значение
- Core request understanding - Что добавлено: Language, latency, context, complexity-aware сигналы, Значение: Маршрутизатор рассуждает не только о теме
- Control and routing context - Что добавлено: Modality и authz сигналы, Значение: Маршрутизация может ветвиться по медиа-интенту раньше
- Feedback loop - Что добавлено: Feedback и preference классификаторы, Значение: Пользовательские сигналы становятся first-class входами
- Semantic matching path - Что добавлено: Multimodal embedding, soft embedding rules, HNSW, Значение: Семантическое сопоставление шире и быстрее
- Deterministic fast path - Что добавлено: BM25, n-gram fuzzy matching, regex, Значение: Аудируемый путь становится менее хрупким
- Runtime confidence layer - Что добавлено: Dynamic confidence scoring, Значение: Решения используют богатое качество сигнала
Безопасность ближе к основному пути
📊 Таблица: Поверхность безопасности | Что добавлено
- Jailbreak detection - Что добавлено: Продвинут в параллельные сигналы; classifier-based и contrastive multi-turn детекция
- PII detection - Что добавлено: Параллельная обработка; расширенные policy и reveal controls
- Tool safety - Что добавлено: Confidence-gated reranking для фильтрации инструментов
- Hallucination handling - Что добавлено: Гибкая multi-level обработка ответа
Улучшенный keyword routing
- BM25 для тематической маршрутизации через большие наборы ключевых слов
- n-gram matching для устойчивой к опечаткам маршрутизации
- regex для точного контроля паттернов
6. NLP-based prompt compression
Athena вводит новый примитив для долгого контекста: сжатие промптов перед извлечением сигналов.
📊 Таблица: Компонент | Реализация
- Метод сжатия - Реализация: TextRank, position weighting, TF-IDF, novelty scoring
- Позиция - Реализация: Сжатие только для signal extraction; оригинал идёт модели
- Безопасность - Реализация:
skip_signalsсохраняет jailbreak и PII на оригинальном тексте - Путь - Реализация: Envoy STREAMED body mode + fast JSON processing
Результаты на MI300X:
- End-to-end latency: 143 мс → 103 мс при ~16K токенов
- Jailbreak signal extraction: 127 мс → 10 мс при сжатии 16K → 512 токенов
Это не LLM-суммаризатор — это детерминистический NLP-конвейер, встроенный в сигнальный путь.
7. Программируемый нейро-символический язык конфигурации
Ключевая тема Athena — маршрутизационная политика становится полноценным языком, а не набором YAML-фрагментов. Это Programmable Neural-Symbolic Configuration Language: типизированный конфигурационный язык, комбинирующий нейросигнальное извлечение с символической оценкой решений.
Практические реализации:
- Полный DSL-компилятор
- Визуальный builder
- Расширенные dashboard CRUD для сигналов и решений
- Улучшенные пути деплоя для Kubernetes
- Улучшенное поведение перезагрузки конфига
Это позволяет LLM-агентам синтезировать политики маршрутизации из естественноязычных спецификаций.
8. Zero-config onboarding
Установка и первый запуск теперь образуют непрерывный поток. На macOS и Linux:
💻 Код (bash):
curl -fsSL https://vllm-semantic-router.com/install.sh | bash
Установщик:
- Обнаруживает Python
- Устанавливает
vllm-srв изолированное локальное окружение - Записывает launcher в
~/.local/bin/vllm-sr - Готовит Docker/Podman для локального serving
- Автоматически запускает первый
vllm-sr serve - Открывает dashboard
При первом запуске или vllm-sr serve из пустой директории система:
- Автоматически создаёт
.vllm-sr/router-defaults.yaml - Запускает dashboard в setup mode
- Проводит через настройку первой модели
- Записывает сгенерированный
config.yamlтолько после активации
9. Dashboard как System Brain
Значительное улучшение UX dashboard:
- Topology visualization с поддержкой тестовых запросов
- Router Replay visualization
- Evaluation API и поверхности оценки в dashboard
- Улучшения мониторинга и observability
- Reasoning-aware playground support
- Readonly dashboard mode для демо и public beta
- MCP tools support
- Рефакторинг layout, mobile, landing-page, manager и monitoring
10. AMD ROCm становится first-class путём деплоя
AMD-путь теперь — канонический vllm-sr деплой, не побочный эксперимент:
- Реальный ROCm-образ
vllm-sr - AMD deployment playbook
- Явный CLI для запуска на AMD GPU с ONNX-ускорением
💻 Код (bash):
vllm-sr serve --platform amd
Этот флаг выбирает ROCm-образ по умолчанию, передаёт AMD-платформу в container runtime, включает GPU-first конфиг и монтирует ROCm-устройства (/dev/kfd, /dev/dri).
ROCm-образ включает ONNX-backed router, ROCm ONNX Runtime и загружает AMD CK Flash Attention custom op. Доступен end-to-end AMD-путь с FA + GPU на ROCm через стандартный vllm-sr serve --platform amd.
11. Исследовательский и model-systems цикл
Athena — не только продуктовый релиз, но и исследовательский цикл:
- Опубликован white paper Signal Driven Decision Routing for Mixture-of-Modality Models
- Продвинуто мультимодальное и модальность-осознанное обучение моделей
- Добавлено долгоконтекстное ускорение через CK Flash Attention, ONNX graph rewriting, ROCm-ориентированный inference
- Усилен мост между исследованиями, артефактами обучения и production runtime
Итог и практические выводы
Ключевые достижения Athena:
- Производительность: ONNX+GPU снижает latency до 22 мс для 500 токенов; CK Flash Attention работает при 32K контексте с 3.3x ускорением против SDPA и нулевыми OOM при 20 одновременных запросах.
- Мультимодальность: Единое 384d пространство для текста, изображений и аудио; 1800+ языков с 32K контекстом.
- Выбор модели: 13 методов от KNN до Router-R1; ML-based и advanced стратегии; явная позиция в конвейере после сигнального извлечения.
- Операционный слой: ClawOS позволяет оркестрировать несколько OpenClaw-систем через естественный язык, чат-комнаты и иерархическую память.
- Безопасность: Jailbreak и PII продвинуты в параллельные сигналы; MINJA-защита; response-level gating.
- Prompt compression: NLP-based сжатие до 512 токенов снижает jailbreak signal extraction с 127 мс до 10 мс.
- Zero-config onboarding: Однострочная установка с автоматическим созданием конфигурации и dashboard-first first-run experience.
- AMD ROCm: Полноценный production-путь с FA + GPU через
--platform amd.
Практические рекомендации:
- Для новых пользователей: использовать one-line installer с последующей настройкой через dashboard
- Для production на AMD: применять
vllm-sr serve --platform amdс ONNX+Flash Attention - Для мультимодальных сценариев: задействовать multi-modal-embed-small для кросс-модального retrieval
- Для сложных систем: использовать ClawOS для оркестрации команд агентов
- Для долгих контекстов: включить prompt compression с skip_signals для sensitive классификаторов
📢 Информация предоставлена телеграм-каналом: Data&AI Insights
🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ