Роль хранилищ и платформ данных в развитии ИИ
Data&AI Insights📖 Источник: habr.com
Краткое содержание Статья Анны Фенюшиной, ведущего архитектора направления «Дата-сервисы» в VK Tech, посвящена роли хранилищ и платформ данных в развитии искусственного интеллекта (ИИ) и машинного обучения (ML). Рассматриваются поколения ML-моделей — классический ML, нейросети и большие языковые модели (LLM), а также требования к данным и инфраструктуре для их обучения и эксплуатации. Особое внимание уделено жизненному циклу ML-модели, проблемам качества данных и способам их решения, а также архитектуре современных дата-платформ, на примере VK Data Platform.
Структура программного обеспечения с использованием ИИ
ИИ в прикладном ПО — это не магия, а результат работы математических алгоритмов и моделей машинного обучения, которые интегрируются в приложения (чат-боты, бизнес-системы, системы анализа и автоматизации). Модель должна быть развернута (продуктивизирована) для использования: это может быть готовый облачный сервис с подпиской (например, у публичных облачных провайдеров), либо самостоятельное обучение и развёртывание модели с необходимыми вычислительными ресурсами и инфраструктурой хранения данных.

Поколения технологий создания ML-моделей
Классический ML Использует алгоритмы из высшей математики, теории вероятностей и других дисциплин. Задачи: классификация, регрессия, кластеризация, рекомендательные системы, анализ временных рядов. Пример — функция, разделяющая пространство признаков на области с прогнозом «да» или «нет». Точность определяется процентом правильно классифицированных примеров.
Основные методы:
- Линейные модели (Linear Models)
- Деревья решений (Decision Trees)
- Ансамбли (Ensemble)
- Методы на основе ядер (Kernel)
- Байесовские методы (Bayesian Methods)
- Факторизация матриц (Matrix Factorization)
- Градиентный бустинг (Gradient Boosting)
Применение: прогноз продаж, кредитный скоринг, сегментация клиентов, рекомендации, кросс-продажи, снижение оттока, персонализация, динамическое ценообразование.
Требования к данным и ресурсам:
- Объем данных <100 тыс. примеров / <100 Гб
- Количество признаков 10–1 000
- Табличные/структурированные данные (CSV, SQL)
- Небольшие вычислительные ресурсы

Нейросети / Deep Learning Искусственные нейронные сети имитируют работу биологических нейронов, где каждый «нейрон» принимает и обрабатывает сигналы, передавая их дальше. Обучение — подбор весов на разных уровнях сети, чтобы сигнал шел по оптимальному пути к правильному ответу.
Применение:
- Computer Vision (распознавание изображений и видео)
- Natural Language Processing (обработка и генерация текста)
- Обработка аудиосигналов и распознавание речи
Возможности: контроль качества на производстве, распознавание лиц и документов, анализ медицинских снимков, робототехника, автономные автомобили, генерация изображений, текста, музыки, видео, продвинутые рекомендательные системы, голосовые помощники, шумоподавление, машинный перевод, анализ тональности, вопросно-ответные системы.
Требования:
- Объем данных >100 тыс. примеров / 1–100 Тб
- Более 1 000 признаков, сложные нелинейные взаимодействия
- Неструктурированные данные (изображения, текст, звук)
- Высокие вычислительные мощности, включая GPU и TPU

Большие языковые модели (LLM) Это нейросети, обученные на огромных объемах текстовых данных для понимания, анализа и генерации естественного языка. Примеры: ChatGPT, Claude, Gemini, LLaMA.
Применение:
- Клиентские сервисы и поддержка
- Чат-боты и виртуальные ассистенты
- Генерация контента и маркетинговых материалов
- Анализ рынка и финансовых данных
- Анализ документов и контрактов
- Суммаризация отчетов и встреч
- HR и рекрутинг
Требования для обучения собственной LLM:
- Уникальные данные, недоступные другим
- Бюджет свыше 1 млн долларов
- Опытная команда ML-специалистов
- Горизонт планирования 1–2 года
- Мощная ИТ-инфраструктура: High-End GPU, быстрые сети, большое хранилище
Для большинства компаний оптимальны:
- Адаптация (Fine-tuning) Open-Source моделей
- Использование API (OpenAI, Anthropic и др.)
- Дистилляция знаний из больших моделей
- Коллаборативное обучение

Дополнение, а не замещение Каждое новое поколение ИИ расширяет возможности, но не заменяет предыдущие. Классический ML остается актуальным для задач с небольшими объемами и структурированными данными. При этом требования к хранилищам данных возрастают: от 100 Гб для классического ML до десятков и сотен Тб для нейросетей и LLM, включая мультимодальные данные.
Новые тренды:
- Автоматический Feature Engineering вместо ручного
- Transfer Learning вместо обучения с нуля
- Пайплайны вместо изолированных моделей
- Foundation Models — универсальные предобученные модели
- Мультимодальность — работа с разными типами данных
- Edge AI — обработка данных и принятие решений на устройствах без отправки в ЦОД
Вечные проблемы:
- Переобучение (overfitting) — чрезмерная специализация модели на тренировочных данных, снижение обобщающей способности
- Недообучение (underfitting) — недостаточная сложность модели, низкая точность
- Компромисс сложности (Bias-variance tradeoff) — сложность модели должна соответствовать задаче
- Оценка качества — регулярный мониторинг метрик и дообучение моделей
- Качество данных — проверка достоверности, полноты, релевантности
Жизненный цикл ML-модели
Жизненный цикл включает пять этапов:
- Накопление данных
Чем больше и качественнее данные, тем лучше модель. Формирование датасетов может занимать от нескольких месяцев до нескольких лет. Отсутствие качественных данных — частая причина неудач ML-проектов.
- Подготовка данных и Feature Engineering
До 60–80% времени проекта уходит на очистку и подготовку данных, что выполняют дата-инженеры и дата-сайентисты. Создаются информативные признаки, зависящие от задачи и модели.
- (Пере-)Обучение
Обучение или переобучение модели на подготовленных данных. Первичное обучение требует участия Data Scientist, переобучение можно автоматизировать.
- Развертывание (Inference)
Обученная модель разворачивается на инфраструктуре (контейнеры, виртуальные машины, кластеры) для обработки запросов в реальном времени. Часто эту задачу выполняют DevOps-специалисты.
- Контроль качества (дрейфа) моделей
Данные и условия меняются, что снижает точность модели. Необходимо отслеживать качество и своевременно переобучать модель, замыкая цикл.

Различия между этапами обучения и использования моделей
Обучение:
- Требует больших объемов исторических данных (гигабайты, терабайты)
- Высокие вычислительные ресурсы, часто распределенное обучение (GPU, Spark, HPC)
- Длительный процесс (часы, дни)
- Переобучение — редкий процесс (раз в день, месяц, год)
- Метрики: Accuracy, Loss, F1-score
- Задействованы дата-инженеры и дата-сайентисты
Использование (Inference):
- Обрабатываются отдельные примеры (килобайты, мегабайты)
- Запросы поступают постоянно, требуется низкая задержка (миллисекунды, секунды)
- Легко масштабируется горизонтально
- Метрики: RPS (запросы в секунду), задержка, производительность инфраструктуры
- Задействованы SRE и DevOps

Старение модели (дрейф)
Модель устаревает из-за изменений в данных и внешних условиях: экономических, политических, эпидемиологических, изменениях в ПО и поведении пользователей. Это снижает качество модели и эффективность ПО. Мониторинг и выявление дрейфа — обязательный этап жизненного цикла.
Проблемы с данными и их решения
Типичные ошибки в данных и их влияние на точность модели:
- Пропущенные значения (Missing Values) — отсутствие данных (например, возраст клиента), снижение точности на 15–30%
- Выбросы (Outliers) — аномальные значения (например, температура 50°C вместо 20°C), рост ошибок на 20–40%
- Несогласованность данных (Data Inconsistency) — разные форматы дат, единиц измерения, кодировок, падение точности на 25–35%
- Непредставительные данные — тестовые данные не отражают реальное распределение, модель работает плохо в реальности
Для минимизации ошибок оптимально встроить проверки в ETL-процессы, что улучшит качество обучения и аналитики.
Ошибки при выделении признаков:
- Дисбаланс классов (Class Imbalance) — один класс доминирует (например, 95% легальных транзакций, 5% мошеннических), модель игнорирует редкий класс
- Низкая информативность признаков — признаки не влияют на прогноз (например, цвет машины для стоимости ремонта)
- Высокая размерность (Curse of Dimensionality) — слишком много признаков при малом числе примеров, приводит к переобучению
- Мультиколлинеарность (Multicollinearity) — сильная корреляция признаков (площадь квартиры и количество комнат), вызывает нестабильность модели
- Временные зависимости — изменение признаков во времени (поведение пользователей до и после пандемии), быстрая потеря точности
После обучения можно формализовать проверки и Feature Engineering в ETL для автоматизации переобучения.
Роль хранилища и платформы данных в жизненном цикле модели
Платформа данных обеспечивает:
- Накопление, проверку и трансформацию данных
- Мониторинг дрейфа модели и автоматизацию переобучения
Обобщенный пайплайн ML-моделей включает:
- «Горячие» данные в реальном времени (красным)
- Хранилище и платформу данных для поддержки и актуализации (голубым)
- Инструменты ML (зеленым)

Data Lakehouse и S3-хранилища позволяют:
- Накопливать петабайты структурированных, неструктурированных и полуструктурированных данных
- Обеспечивать легкий доступ к историческим данным для дата-сайентистов, дата-инженеров и аналитиков
- Поддерживать подготовку и обновление датасетов для экспериментов и обучения
- Реализовать мониторинг дрейфа и автоматизацию переобучения через ETL-процессы
Реализация на базе VK Data Platform от VK Tech
Для эффективной работы с ML-моделями разного поколения необходима современная аналитическая дата-платформа.
Накопление и хранение данных:
- Реализуется на базе S3-хранилища и таблиц Iceberg в архитектуре Data Lakehouse
- Позволяет масштабироваться без миграций и менять технологии
- Обеспечивает мультимодальность данных
- Служит площадкой для Feature Stores, экспериментов и Feature Engineering
Подготовка и очистка данных:
- Используются ETL-инструменты и Apache Spark
- Автоматизация подготовки качественных датасетов
- Формализация и автоматизация Feature Engineering для переобучения
Контроль качества и дрейфа моделей:
- Автоматизация сбора метрик и принятия решения о переобучении
- Встраивание в регулярные ETL-конвейеры
Вся цепочка жизненного цикла ML реализуется на платформе VK Data Platform, построенной на базе производительного S3-совместимого объектного хранилища VK Object Storage от VK Tech.
Итоги и выводы
- Современный бизнес использует разные поколения ML-моделей — классический ML, нейросети и LLM — для решения широкого спектра задач от прогнозирования до генерации контента.
- Качество данных и процессов их обработки определяет успех ML-проекта на 80%. Без качественных данных невозможно создать эффективную модель.
- Жизненный цикл модели требует комплексного подхода: накопление, подготовка, обучение, развертывание, мониторинг и переобучение.
- Проблемы с данными (пропуски, выбросы, несогласованность, дисбаланс классов и др.) существенно снижают точность моделей и требуют встроенных проверок в ETL-процессы.
- Современные дата-платформы, такие как VK Data Platform, обеспечивают хранение больших объемов мультимодальных данных, автоматизацию подготовки и контроля качества данных, а также поддержку мониторинга и переобучения моделей.
- Выбор правильной платформы данных и стратегии работы с данными — ключевой фактор для успешного внедрения и эксплуатации ИИ в бизнесе.
📢 Информация предоставлена телеграм-каналом: Data&AI Insights
🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ