Роль хранилищ и платформ данных в развитии ИИ

📖 Источник: habr.com

Краткое содержание Статья Анны Фенюшиной, ведущего архитектора направления «Дата-сервисы» в VK Tech, посвящена роли хранилищ и платформ данных в развитии искусственного интеллекта (ИИ) и машинного обучения (ML). Рассматриваются поколения ML-моделей — классический ML, нейросети и большие языковые модели (LLM), а также требования к данным и инфраструктуре для их обучения и эксплуатации. Особое внимание уделено жизненному циклу ML-модели, проблемам качества данных и способам их решения, а также архитектуре современных дата-платформ, на примере VK Data Platform.

Структура программного обеспечения с использованием ИИ

ИИ в прикладном ПО — это не магия, а результат работы математических алгоритмов и моделей машинного обучения, которые интегрируются в приложения (чат-боты, бизнес-системы, системы анализа и автоматизации). Модель должна быть развернута (продуктивизирована) для использования: это может быть готовый облачный сервис с подпиской (например, у публичных облачных провайдеров), либо самостоятельное обучение и развёртывание модели с необходимыми вычислительными ресурсами и инфраструктурой хранения данных.

Поколения технологий создания ML-моделей

Классический ML Использует алгоритмы из высшей математики, теории вероятностей и других дисциплин. Задачи: классификация, регрессия, кластеризация, рекомендательные системы, анализ временных рядов. Пример — функция, разделяющая пространство признаков на области с прогнозом «да» или «нет». Точность определяется процентом правильно классифицированных примеров.

Основные методы:

Линейные модели (Linear Models)
Деревья решений (Decision Trees)
Ансамбли (Ensemble)
Методы на основе ядер (Kernel)
Байесовские методы (Bayesian Methods)
Факторизация матриц (Matrix Factorization)
Градиентный бустинг (Gradient Boosting)

Применение: прогноз продаж, кредитный скоринг, сегментация клиентов, рекомендации, кросс-продажи, снижение оттока, персонализация, динамическое ценообразование.

Требования к данным и ресурсам:

Объем данных <100 тыс. примеров / <100 Гб
Количество признаков 10–1 000
Табличные/структурированные данные (CSV, SQL)
Небольшие вычислительные ресурсы

Нейросети / Deep Learning Искусственные нейронные сети имитируют работу биологических нейронов, где каждый «нейрон» принимает и обрабатывает сигналы, передавая их дальше. Обучение — подбор весов на разных уровнях сети, чтобы сигнал шел по оптимальному пути к правильному ответу.

Применение:

Computer Vision (распознавание изображений и видео)
Natural Language Processing (обработка и генерация текста)
Обработка аудиосигналов и распознавание речи

Возможности: контроль качества на производстве, распознавание лиц и документов, анализ медицинских снимков, робототехника, автономные автомобили, генерация изображений, текста, музыки, видео, продвинутые рекомендательные системы, голосовые помощники, шумоподавление, машинный перевод, анализ тональности, вопросно-ответные системы.

Требования:

Объем данных >100 тыс. примеров / 1–100 Тб
Более 1 000 признаков, сложные нелинейные взаимодействия
Неструктурированные данные (изображения, текст, звук)
Высокие вычислительные мощности, включая GPU и TPU

Большие языковые модели (LLM) Это нейросети, обученные на огромных объемах текстовых данных для понимания, анализа и генерации естественного языка. Примеры: ChatGPT, Claude, Gemini, LLaMA.

Применение:

Клиентские сервисы и поддержка
Чат-боты и виртуальные ассистенты
Генерация контента и маркетинговых материалов
Анализ рынка и финансовых данных
Анализ документов и контрактов
Суммаризация отчетов и встреч
HR и рекрутинг

Требования для обучения собственной LLM:

Уникальные данные, недоступные другим
Бюджет свыше 1 млн долларов
Опытная команда ML-специалистов
Горизонт планирования 1–2 года
Мощная ИТ-инфраструктура: High-End GPU, быстрые сети, большое хранилище

Для большинства компаний оптимальны:

Адаптация (Fine-tuning) Open-Source моделей
Использование API (OpenAI, Anthropic и др.)
Дистилляция знаний из больших моделей
Коллаборативное обучение

Дополнение, а не замещение Каждое новое поколение ИИ расширяет возможности, но не заменяет предыдущие. Классический ML остается актуальным для задач с небольшими объемами и структурированными данными. При этом требования к хранилищам данных возрастают: от 100 Гб для классического ML до десятков и сотен Тб для нейросетей и LLM, включая мультимодальные данные.

Новые тренды:

Автоматический Feature Engineering вместо ручного
Transfer Learning вместо обучения с нуля
Пайплайны вместо изолированных моделей
Foundation Models — универсальные предобученные модели
Мультимодальность — работа с разными типами данных
Edge AI — обработка данных и принятие решений на устройствах без отправки в ЦОД

Вечные проблемы:

Переобучение (overfitting) — чрезмерная специализация модели на тренировочных данных, снижение обобщающей способности
Недообучение (underfitting) — недостаточная сложность модели, низкая точность
Компромисс сложности (Bias-variance tradeoff) — сложность модели должна соответствовать задаче
Оценка качества — регулярный мониторинг метрик и дообучение моделей
Качество данных — проверка достоверности, полноты, релевантности

Жизненный цикл ML-модели

Жизненный цикл включает пять этапов:

Накопление данных

Чем больше и качественнее данные, тем лучше модель. Формирование датасетов может занимать от нескольких месяцев до нескольких лет. Отсутствие качественных данных — частая причина неудач ML-проектов.

Подготовка данных и Feature Engineering

До 60–80% времени проекта уходит на очистку и подготовку данных, что выполняют дата-инженеры и дата-сайентисты. Создаются информативные признаки, зависящие от задачи и модели.

(Пере-)Обучение

Обучение или переобучение модели на подготовленных данных. Первичное обучение требует участия Data Scientist, переобучение можно автоматизировать.

Развертывание (Inference)

Обученная модель разворачивается на инфраструктуре (контейнеры, виртуальные машины, кластеры) для обработки запросов в реальном времени. Часто эту задачу выполняют DevOps-специалисты.

Контроль качества (дрейфа) моделей

Данные и условия меняются, что снижает точность модели. Необходимо отслеживать качество и своевременно переобучать модель, замыкая цикл.

Различия между этапами обучения и использования моделей

Обучение:

Требует больших объемов исторических данных (гигабайты, терабайты)
Высокие вычислительные ресурсы, часто распределенное обучение (GPU, Spark, HPC)
Длительный процесс (часы, дни)
Переобучение — редкий процесс (раз в день, месяц, год)
Метрики: Accuracy, Loss, F1-score
Задействованы дата-инженеры и дата-сайентисты

Использование (Inference):

Обрабатываются отдельные примеры (килобайты, мегабайты)
Запросы поступают постоянно, требуется низкая задержка (миллисекунды, секунды)
Легко масштабируется горизонтально
Метрики: RPS (запросы в секунду), задержка, производительность инфраструктуры
Задействованы SRE и DevOps

Старение модели (дрейф)

Модель устаревает из-за изменений в данных и внешних условиях: экономических, политических, эпидемиологических, изменениях в ПО и поведении пользователей. Это снижает качество модели и эффективность ПО. Мониторинг и выявление дрейфа — обязательный этап жизненного цикла.

Проблемы с данными и их решения

Типичные ошибки в данных и их влияние на точность модели:

Пропущенные значения (Missing Values) — отсутствие данных (например, возраст клиента), снижение точности на 15–30%
Выбросы (Outliers) — аномальные значения (например, температура 50°C вместо 20°C), рост ошибок на 20–40%
Несогласованность данных (Data Inconsistency) — разные форматы дат, единиц измерения, кодировок, падение точности на 25–35%
Непредставительные данные — тестовые данные не отражают реальное распределение, модель работает плохо в реальности

Для минимизации ошибок оптимально встроить проверки в ETL-процессы, что улучшит качество обучения и аналитики.

Ошибки при выделении признаков:

Дисбаланс классов (Class Imbalance) — один класс доминирует (например, 95% легальных транзакций, 5% мошеннических), модель игнорирует редкий класс
Низкая информативность признаков — признаки не влияют на прогноз (например, цвет машины для стоимости ремонта)
Высокая размерность (Curse of Dimensionality) — слишком много признаков при малом числе примеров, приводит к переобучению
Мультиколлинеарность (Multicollinearity) — сильная корреляция признаков (площадь квартиры и количество комнат), вызывает нестабильность модели
Временные зависимости — изменение признаков во времени (поведение пользователей до и после пандемии), быстрая потеря точности

После обучения можно формализовать проверки и Feature Engineering в ETL для автоматизации переобучения.

Роль хранилища и платформы данных в жизненном цикле модели

Платформа данных обеспечивает:

Накопление, проверку и трансформацию данных
Мониторинг дрейфа модели и автоматизацию переобучения

Обобщенный пайплайн ML-моделей включает:

«Горячие» данные в реальном времени (красным)
Хранилище и платформу данных для поддержки и актуализации (голубым)
Инструменты ML (зеленым)

Data Lakehouse и S3-хранилища позволяют:

Накопливать петабайты структурированных, неструктурированных и полуструктурированных данных
Обеспечивать легкий доступ к историческим данным для дата-сайентистов, дата-инженеров и аналитиков
Поддерживать подготовку и обновление датасетов для экспериментов и обучения
Реализовать мониторинг дрейфа и автоматизацию переобучения через ETL-процессы

Реализация на базе VK Data Platform от VK Tech

Для эффективной работы с ML-моделями разного поколения необходима современная аналитическая дата-платформа.

Накопление и хранение данных:

Реализуется на базе S3-хранилища и таблиц Iceberg в архитектуре Data Lakehouse
Позволяет масштабироваться без миграций и менять технологии
Обеспечивает мультимодальность данных
Служит площадкой для Feature Stores, экспериментов и Feature Engineering

Подготовка и очистка данных:

Используются ETL-инструменты и Apache Spark
Автоматизация подготовки качественных датасетов
Формализация и автоматизация Feature Engineering для переобучения

Контроль качества и дрейфа моделей:

Автоматизация сбора метрик и принятия решения о переобучении
Встраивание в регулярные ETL-конвейеры

Вся цепочка жизненного цикла ML реализуется на платформе VK Data Platform, построенной на базе производительного S3-совместимого объектного хранилища VK Object Storage от VK Tech.

Итоги и выводы

Современный бизнес использует разные поколения ML-моделей — классический ML, нейросети и LLM — для решения широкого спектра задач от прогнозирования до генерации контента.
Качество данных и процессов их обработки определяет успех ML-проекта на 80%. Без качественных данных невозможно создать эффективную модель.
Жизненный цикл модели требует комплексного подхода: накопление, подготовка, обучение, развертывание, мониторинг и переобучение.
Проблемы с данными (пропуски, выбросы, несогласованность, дисбаланс классов и др.) существенно снижают точность моделей и требуют встроенных проверок в ETL-процессы.
Современные дата-платформы, такие как VK Data Platform, обеспечивают хранение больших объемов мультимодальных данных, автоматизацию подготовки и контроля качества данных, а также поддержку мониторинга и переобучения моделей.
Выбор правильной платформы данных и стратегии работы с данными — ключевой фактор для успешного внедрения и эксплуатации ИИ в бизнесе.

📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ