vLLM Semantic Router v0.2 Athena: ClawOS, Model Refresh, and the System Brain

vLLM Semantic Router v0.2 Athena: ClawOS, Model Refresh, and the System Brain

Data&AI Insights

📖 Источник: vllm.ai

vLLM Semantic Router v0.2 Athena: Саммари

Краткое введение

Релиз v0.2 Athena представляет собой масштабное обновление vLLM Semantic Router — от простого маршрутизатора запросов к интеллектуальной операционной системе для работы с множеством моделей и мультиагентных развёртываний. Версия Athena перестраивает модельный стек, расширяет возможности маршрутизации в области безопасности, семантического кэширования, памяти и RAG, а также вводит экспериментальный слой ClawOS для оркестрации нескольких OpenClaw-систем. Релиз содержит 304 коммита от 43 контрибьюторов, созданных за период с 5 января по 9 марта 2026 года.


1. Полное обновление модельного стека

1.1 Новая основа: mmBERT и мультимодальные эмбеддинги

Ядром обновления стал переход на новую долгоконтекстную мультиязычную базу mmbert-embed-32k-2d-matryoshka и семейство классификаторов mom-multilingual-class. Это означает, что поверхности маршрутизации для эмбеддингов, интента, джейлбрейка, PII, обратной связи и фактчекинга теперь используют общую mmBERT-основу вместо фрагментированной архитектуры.

Ключевые характеристики новых моделей:

📊 Таблица: Модель | Параметры | Контекст | Языки | Особенности


  • mmbert-embed-32k-2d-matryoshka - Параметры: 307M, Контекст: 32K, Языки: 1800+, Особенности: STS 80.5, 768d→256dtruncation с ~99% качества, early exit 22L→6L для 3.3x ускорения
  • multi-modal-embed-small - Параметры: ~120M, Контекст: —, Языки: —, Особенности: Унифицированное 384d пространство для текста, изображений и аудио, Audio-Text R@1 = 36.4%

Семейство mom-multilingual-class включает пять основных задач маршрутизации и безопасности, каждая доступная в merged и LoRA-форматах:

📊 Таблица: Задача | Merged модель | LoRA модель


  • Intent - Merged модель: mmbert32k-intent-classifier-merged, LoRA модель: mmbert32k-intent-classifier-lora
  • Jailbreak - Merged модель: mmbert32k-jailbreak-detector-merged, LoRA модель: mmbert32k-jailbreak-detector-lora
  • PII - Merged модель: mmbert32k-pii-detector-merged, LoRA модель: mmbert32k-pii-detector-lora
  • Fact-check - Merged модель: mmbert32k-factcheck-classifier-merged, LoRA модель: mmbert32k-factcheck-classifier-lora
  • Feedback - Merged модель: mmbert32k-feedback-detector-merged, LoRA модель: mmbert32k-feedback-detector-lora

1.2 Производительность: ONNX + CK Flash Attention

Новый модельный стек поддерживает ускорение через ONNX и CK Flash Attention. На GPU AMD Instinct MI300X в реальном маршрутизационном пути Envoy (:8801) → ext_proc → SR (:50051) достигнуты следующие результаты:

📊 Таблица: Размер запроса | ONNX + GPU | ONNX + CPU | Candle + CPU


  • ~500 токенов - ONNX + GPU: 22 мс, ONNX + CPU: 853 мс, Candle + CPU: 1053 мс
  • ~2000 токенов - ONNX + GPU: 31 мс, ONNX + CPU: 1814 мс, Candle + CPU: 1805 мс
  • ~8000 токенов - ONNX + GPU: 128 мс, ONNX + CPU: 4796 мс, Candle + CPU: 1830 мс

Для извлечения домена ONNX+GPU показал 10.2 мс (~500 токенов), 16.3 мс (~2000 токенов), 36.1 мс (~8000 токенов), тогда как ONNX+CPU — 630/833/743 мс соответственно.

CK Flash Attention демонстрирует кардинальное превосходство над SDPA:

📊 Таблица: Длина последовательности | SDPA | CK Flash Attention | Результат


  • 4096 - SDPA: 167 мс, CK Flash Attention: 51 мс, Результат: 3.3x быстрее
  • 8192 - SDPA: OOM, CK Flash Attention: 105 мс, Результат: SDPA падает, FA работает
  • 16384 - SDPA: OOM, CK Flash Attention: 259 мс, Результат: FA работает при 16K
  • 32768 - SDPA: OOM, CK Flash Attention: 756 мс, Результат: FA достигает полных 32K

При нагрузке из 20 одновременных запросов по 32K токенов CK Flash Attention завершил с медианой 9872 мс и p95 14862 мс при нулевых OOM.

Техническая реализация FA включает кастомную ONNX Runtime custom-op библиотеку под ROCm, которая регистрирует com.ck::CKFlashAttention и вызывает AMD Composable Kernel tiled FMHA kernels напрямую. Граф-rewrite заменяет плотную SDPA подграфу на один узел CK Flash Attention.


2. Выбор модели как первоклассный примитив маршрутизации

Ключевое нововведение Athena — выбор модели стал явной частью системы, а не просто пунктом дорожной карты. Он реализован через обучаемые ML-селекторы и продвинутые стратегии выбора времени выполнения.

Позиция выбора модели в конвейере маршрутизации явная: система сначала извлекает сигналы, затем оценивает решения, и только после совпадения решения алгоритм выбирает конкретную модель из списка modelRefs этого решения.

Семейства методов выбора модели

📊 Таблица: Семейство | Метод | Описание


  • ML-based - Метод: KNN, Описание: Поиск похожих исторических запросов; ближайшие примеры голосуют за лучшую модель
  • ML-based - Метод: KMeans, Описание: Кластеризация запросов; назначение моделей на основе кластерных паттернов качества и эффективности
  • ML-based - Метод: SVM, Описание: Обучение нелинейных границ решений между предпочтениями моделей через RBF-классификатор
  • ML-based - Метод: MLP, Описание: Нейронный маршрутизатор для предсказания лучшей модели из эмбеддингов через Candle
  • Advanced - Метод: Static, Описание: Фиксированная модель по умолчанию для предсказуемости
  • Advanced - Метод: Latency-Aware, Описание: Выбор самого быстрого кандидата по данным TPOT и TTFT перцентилей
  • Advanced - Метод: Elo, Описание: Обучение на основе пользовательской обратной связи через Bradley-Terry рейтинговые обновления
  • Advanced - Метод: RouterDC, Описание: Сопоставление запросов с описаниями моделей через dual-contrastive similarity
  • Advanced - Метод: AutoMix, Описание: Начало с дешёвых моделей с эскалацией на основе самопроверки
  • Advanced - Метод: Hybrid, Описание: Смешивание нескольких методов с конфигурируемыми весами
  • Advanced - Метод: Thompson Sampling, Описание: Баланс exploration и exploitation онлайн
  • Advanced - Метод: GMTRouter, Описание: Персонализация выбора модели из мульти-turn истории через графовую маршрутизацию
  • Advanced - Метод: Router-R1, Описание: Использование внешней модели для рассуждения о запросе перед выбором

3. ClawOS — операционный слой для OpenClaw

Одна из самых смелых ставок Athena — ClawOS: экспериментальный операционный слой, позволяющий Semantic Router оркестрировать несколько OpenClaw-систем. OpenClaw — это базовая агентная платформа; ClawOS — слой оркестрации и операционного опыта поверх неё.

Через встроенные MCP-инструменты и чат-рабочие процессы пользователи могут:

  • Использовать естественноязычные разговоры для создания различных команд OpenClaw
  • Координировать их в реальном времени внутри общих комнат
  • Наблюдать состояние всей мульти-claw системы из одной точки

Возможности ClawOS:

  • Intelligent Routing для выбора модели по соотношению цена/качество
  • Safety Guardrails против джейлбрейков, утечки PII и галлюцинаций
  • Hierarchical Memory Storage для долгосрочного многошагового выполнения
  • Knowledge Sharing между агентами
  • Isolation & Team Management для мультиагентных операций
  • Natural-language MCP control для управления командами
  • Shared room chat для координации в реальном времени
  • Leader-and-worker collaboration

4. Память, RAG и состояние ответа в core runtime

Athena делает состояние основной функцией, а не побочной.

Память

  • Agentic Memory с Milvus storage
  • Hybrid memory search — комбинирование векторного сходства, BM25 и n-gram текстового сопоставления
  • Memory scoring
  • Llama Stack vector backends
  • Memory metrics для мониторинга
  • MINJA-защита от атак на инъекцию памяти
  • Response-level jailbreak gating перед сохранением в память
  • Cross-model cache sharing

RAG

  • Weighted hybrid search и RRF-режим
  • Настраиваемые BM25/n-gram параметры
  • Hybrid reranking на Milvus-бэкендах

Отладка

  • Router Replay с подключаемыми хранилищами
  • Per-decision isolation
  • Визуализация в dashboard

5. Сигналы: богаче, быстрее, безопаснее

Расширение сигнального слоя

📊 Таблица: Поверхность сигнала | Что добавлено | Значение


  • Core request understanding - Что добавлено: Language, latency, context, complexity-aware сигналы, Значение: Маршрутизатор рассуждает не только о теме
  • Control and routing context - Что добавлено: Modality и authz сигналы, Значение: Маршрутизация может ветвиться по медиа-интенту раньше
  • Feedback loop - Что добавлено: Feedback и preference классификаторы, Значение: Пользовательские сигналы становятся first-class входами
  • Semantic matching path - Что добавлено: Multimodal embedding, soft embedding rules, HNSW, Значение: Семантическое сопоставление шире и быстрее
  • Deterministic fast path - Что добавлено: BM25, n-gram fuzzy matching, regex, Значение: Аудируемый путь становится менее хрупким
  • Runtime confidence layer - Что добавлено: Dynamic confidence scoring, Значение: Решения используют богатое качество сигнала

Безопасность ближе к основному пути

📊 Таблица: Поверхность безопасности | Что добавлено


  • Jailbreak detection - Что добавлено: Продвинут в параллельные сигналы; classifier-based и contrastive multi-turn детекция
  • PII detection - Что добавлено: Параллельная обработка; расширенные policy и reveal controls
  • Tool safety - Что добавлено: Confidence-gated reranking для фильтрации инструментов
  • Hallucination handling - Что добавлено: Гибкая multi-level обработка ответа

Улучшенный keyword routing

  • BM25 для тематической маршрутизации через большие наборы ключевых слов
  • n-gram matching для устойчивой к опечаткам маршрутизации
  • regex для точного контроля паттернов

6. NLP-based prompt compression

Athena вводит новый примитив для долгого контекста: сжатие промптов перед извлечением сигналов.

📊 Таблица: Компонент | Реализация


  • Метод сжатия - Реализация: TextRank, position weighting, TF-IDF, novelty scoring
  • Позиция - Реализация: Сжатие только для signal extraction; оригинал идёт модели
  • Безопасность - Реализация: skip_signals сохраняет jailbreak и PII на оригинальном тексте
  • Путь - Реализация: Envoy STREAMED body mode + fast JSON processing

Результаты на MI300X:

  • End-to-end latency: 143 мс → 103 мс при ~16K токенов
  • Jailbreak signal extraction: 127 мс → 10 мс при сжатии 16K → 512 токенов

Это не LLM-суммаризатор — это детерминистический NLP-конвейер, встроенный в сигнальный путь.


7. Программируемый нейро-символический язык конфигурации

Ключевая тема Athena — маршрутизационная политика становится полноценным языком, а не набором YAML-фрагментов. Это Programmable Neural-Symbolic Configuration Language: типизированный конфигурационный язык, комбинирующий нейросигнальное извлечение с символической оценкой решений.

Практические реализации:

  • Полный DSL-компилятор
  • Визуальный builder
  • Расширенные dashboard CRUD для сигналов и решений
  • Улучшенные пути деплоя для Kubernetes
  • Улучшенное поведение перезагрузки конфига

Это позволяет LLM-агентам синтезировать политики маршрутизации из естественноязычных спецификаций.


8. Zero-config onboarding

Установка и первый запуск теперь образуют непрерывный поток. На macOS и Linux:

💻 Код (bash):

curl -fsSL https://vllm-semantic-router.com/install.sh | bash

Установщик:

  • Обнаруживает Python
  • Устанавливает vllm-sr в изолированное локальное окружение
  • Записывает launcher в ~/.local/bin/vllm-sr
  • Готовит Docker/Podman для локального serving
  • Автоматически запускает первый vllm-sr serve
  • Открывает dashboard

При первом запуске или vllm-sr serve из пустой директории система:

  • Автоматически создаёт .vllm-sr/router-defaults.yaml
  • Запускает dashboard в setup mode
  • Проводит через настройку первой модели
  • Записывает сгенерированный config.yaml только после активации

9. Dashboard как System Brain

Значительное улучшение UX dashboard:

  • Topology visualization с поддержкой тестовых запросов
  • Router Replay visualization
  • Evaluation API и поверхности оценки в dashboard
  • Улучшения мониторинга и observability
  • Reasoning-aware playground support
  • Readonly dashboard mode для демо и public beta
  • MCP tools support
  • Рефакторинг layout, mobile, landing-page, manager и monitoring

10. AMD ROCm становится first-class путём деплоя

AMD-путь теперь — канонический vllm-sr деплой, не побочный эксперимент:

  • Реальный ROCm-образ vllm-sr
  • AMD deployment playbook
  • Явный CLI для запуска на AMD GPU с ONNX-ускорением

💻 Код (bash):

vllm-sr serve --platform amd

Этот флаг выбирает ROCm-образ по умолчанию, передаёт AMD-платформу в container runtime, включает GPU-first конфиг и монтирует ROCm-устройства (/dev/kfd, /dev/dri).

ROCm-образ включает ONNX-backed router, ROCm ONNX Runtime и загружает AMD CK Flash Attention custom op. Доступен end-to-end AMD-путь с FA + GPU на ROCm через стандартный vllm-sr serve --platform amd.


11. Исследовательский и model-systems цикл

Athena — не только продуктовый релиз, но и исследовательский цикл:

  • Опубликован white paper Signal Driven Decision Routing for Mixture-of-Modality Models
  • Продвинуто мультимодальное и модальность-осознанное обучение моделей
  • Добавлено долгоконтекстное ускорение через CK Flash Attention, ONNX graph rewriting, ROCm-ориентированный inference
  • Усилен мост между исследованиями, артефактами обучения и production runtime

Итог и практические выводы

Ключевые достижения Athena:

  1. Производительность: ONNX+GPU снижает latency до 22 мс для 500 токенов; CK Flash Attention работает при 32K контексте с 3.3x ускорением против SDPA и нулевыми OOM при 20 одновременных запросах.
  2. Мультимодальность: Единое 384d пространство для текста, изображений и аудио; 1800+ языков с 32K контекстом.
  3. Выбор модели: 13 методов от KNN до Router-R1; ML-based и advanced стратегии; явная позиция в конвейере после сигнального извлечения.
  4. Операционный слой: ClawOS позволяет оркестрировать несколько OpenClaw-систем через естественный язык, чат-комнаты и иерархическую память.
  5. Безопасность: Jailbreak и PII продвинуты в параллельные сигналы; MINJA-защита; response-level gating.
  6. Prompt compression: NLP-based сжатие до 512 токенов снижает jailbreak signal extraction с 127 мс до 10 мс.
  7. Zero-config onboarding: Однострочная установка с автоматическим созданием конфигурации и dashboard-first first-run experience.
  8. AMD ROCm: Полноценный production-путь с FA + GPU через --platform amd.

Практические рекомендации:

  • Для новых пользователей: использовать one-line installer с последующей настройкой через dashboard
  • Для production на AMD: применять vllm-sr serve --platform amd с ONNX+Flash Attention
  • Для мультимодальных сценариев: задействовать multi-modal-embed-small для кросс-модального retrieval
  • Для сложных систем: использовать ClawOS для оркестрации команд агентов
  • Для долгих контекстов: включить prompt compression с skip_signals для sensitive классификаторов

📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ

Report Page