asapBI: подружить DWH и AI?
Data&AI Insights📖 Источник: habr.com
Краткое содержание статьи
Статья посвящена интеграции технологий искусственного интеллекта (AI) с системами хранилищ данных (DWH) на примере платформы asapBI. Основная тема — решение проблем, возникающих при использовании AI в процессе построения DWH, в частности, связанных с ошибками и «галлюцинациями» AI, а также предложение концепции песочниц для безопасной разработки и тестирования. Рассматриваются технические детали реализации песочниц, их преимущества и опыт внедрения в Т-Банке.
Проблемы интеграции AI в процессы построения DWH
Использование AI при построении DWH сталкивается с рядом серьезных трудностей. Главная из них — явление «галлюцинаций» AI, когда модель генерирует ошибочные данные или удаляет важные столбцы из таблиц. В языках программирования ошибки легко исправить откатом, однако в DWH удаление столбца с данными требует сложных и трудоемких процедур восстановления, включая создание и проверку резервных копий (бэкапов). При этом бэкапы могут быть ненадежными — автор называет их «бэкапом Шредингера», подразумевая неопределенность их состояния.
Пример из статьи: задача отслеживания нового поля в исходной системе Контрагентов, его проброса по потоку данных и тестирования загрузки. При этом ручная проверка появления поля и последующая работа занимают значительное время и требуют аккуратности.
Концепция песочниц для безопасной разработки и тестирования
Для решения проблем с ошибками AI и безопасной разработки предлагается использовать отдельные песочницы — изолированные базы данных, куда копируются объекты из основной базы разработки (Dev). Каждому разработчику, включая AI, выделяется своя песочница, что позволяет:
- Изолировать разработку, чтобы действия одного разработчика не мешали другим.
- Позволить разработчику удалять данные и загружать свои для тестирования алгоритмов без риска повредить основную базу.
- Использовать AI в песочнице, где он может «уничтожать» данные без ущерба для основной базы.
- Переносить песочницу в продуктивную среду (Prod) для проверки гипотез и безболезненно удалять ее, если гипотеза не подтверждается.
Техническая реализация и управление песочницами
Песочница — это отдельная база данных, копирующая структуру и данные из Dev. Количество песочниц у каждого разработчика может быть неограниченным. Основная сложность — перенос моделей данных из песочниц разных разработчиков обратно в Dev и разрешение коллизий.
Схема переноса моделей данных расширяется следующим образом:
- Традиционная цепочка: Dev -> Test -> Prod
- С добавлением песочниц: Песочница -> Dev -> Test -> Prod
Для эффективной работы с песочницами необходима платформа данных, которая автоматизирует создание, управление и перенос данных между средами. В статье упоминается платформа asapBI, которая объединяет базы данных, оркестраторы и системы обработки данных (Trino, Spark и др.) в едином интерфейсе, снимая рутинные задачи с разработчиков.
Без такой платформы работа с песочницами становится крайне трудоемкой и напоминает «Смерть от Тысячи Кликов» — необходимость многократного создания и связывания объектов через разрозненные интерфейсы.
Опыт Т-Банка и перспективы развития
Автор отмечает, что наиболее продвинутые в использовании песочниц — разработчики Т-Банка. Они уже давно исследуют и внедряют подобные решения, о чем свидетельствуют публикации на Хабре:
- Статья 1: https://habr.com/ru/companies/tbank/articles/543416/
- Статья 2: https://habr.com/ru/companies/tbank/articles/547990/
- Видео: https://www.youtube.com/watch?v=5NbstzGqA28
В статье выражается интерес к текущему состоянию дел в Т-Банке и вопрос, кто еще занимается развитием подобных подходов.
Итоговое обобщение и инсайты
Интеграция AI в процессы построения DWH требует новых подходов к управлению данными и разработкой. Основная проблема — риск повреждения данных из-за ошибок AI, что делает традиционные методы отката и восстановления неэффективными. Концепция песочниц, реализуемая через отдельные базы данных для каждого разработчика, позволяет изолировать эксперименты и минимизировать риски.
Платформы данных, такие как asapBI, играют ключевую роль, автоматизируя создание и управление песочницами, а также интеграцию результатов в основные среды разработки и продакшена. Опыт Т-Банка демонстрирует практическую применимость и перспективность данного подхода.
Таким образом, песочницы становятся важным инструментом для безопасного и эффективного использования AI в DWH, обеспечивая гибкость, контроль и возможность быстрого тестирования гипотез без ущерба для основной базы данных.
📢 Информация предоставлена телеграм-каналом: Data&AI Insights
🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ