asapBI: подружить DWH и AI?

asapBI: подружить DWH и AI?

Data&AI Insights

📖 Источник: habr.com

Краткое содержание статьи

Статья посвящена интеграции технологий искусственного интеллекта (AI) с системами хранилищ данных (DWH) на примере платформы asapBI. Основная тема — решение проблем, возникающих при использовании AI в процессе построения DWH, в частности, связанных с ошибками и «галлюцинациями» AI, а также предложение концепции песочниц для безопасной разработки и тестирования. Рассматриваются технические детали реализации песочниц, их преимущества и опыт внедрения в Т-Банке.


Проблемы интеграции AI в процессы построения DWH

Использование AI при построении DWH сталкивается с рядом серьезных трудностей. Главная из них — явление «галлюцинаций» AI, когда модель генерирует ошибочные данные или удаляет важные столбцы из таблиц. В языках программирования ошибки легко исправить откатом, однако в DWH удаление столбца с данными требует сложных и трудоемких процедур восстановления, включая создание и проверку резервных копий (бэкапов). При этом бэкапы могут быть ненадежными — автор называет их «бэкапом Шредингера», подразумевая неопределенность их состояния.

Пример из статьи: задача отслеживания нового поля в исходной системе Контрагентов, его проброса по потоку данных и тестирования загрузки. При этом ручная проверка появления поля и последующая работа занимают значительное время и требуют аккуратности.


Концепция песочниц для безопасной разработки и тестирования

Для решения проблем с ошибками AI и безопасной разработки предлагается использовать отдельные песочницы — изолированные базы данных, куда копируются объекты из основной базы разработки (Dev). Каждому разработчику, включая AI, выделяется своя песочница, что позволяет:

  1. Изолировать разработку, чтобы действия одного разработчика не мешали другим.
  2. Позволить разработчику удалять данные и загружать свои для тестирования алгоритмов без риска повредить основную базу.
  3. Использовать AI в песочнице, где он может «уничтожать» данные без ущерба для основной базы.
  4. Переносить песочницу в продуктивную среду (Prod) для проверки гипотез и безболезненно удалять ее, если гипотеза не подтверждается.

Техническая реализация и управление песочницами

Песочница — это отдельная база данных, копирующая структуру и данные из Dev. Количество песочниц у каждого разработчика может быть неограниченным. Основная сложность — перенос моделей данных из песочниц разных разработчиков обратно в Dev и разрешение коллизий.

Схема переноса моделей данных расширяется следующим образом:

  • Традиционная цепочка: Dev -> Test -> Prod
  • С добавлением песочниц: Песочница -> Dev -> Test -> Prod

Для эффективной работы с песочницами необходима платформа данных, которая автоматизирует создание, управление и перенос данных между средами. В статье упоминается платформа asapBI, которая объединяет базы данных, оркестраторы и системы обработки данных (Trino, Spark и др.) в едином интерфейсе, снимая рутинные задачи с разработчиков.

Без такой платформы работа с песочницами становится крайне трудоемкой и напоминает «Смерть от Тысячи Кликов» — необходимость многократного создания и связывания объектов через разрозненные интерфейсы.


Опыт Т-Банка и перспективы развития

Автор отмечает, что наиболее продвинутые в использовании песочниц — разработчики Т-Банка. Они уже давно исследуют и внедряют подобные решения, о чем свидетельствуют публикации на Хабре:

В статье выражается интерес к текущему состоянию дел в Т-Банке и вопрос, кто еще занимается развитием подобных подходов.


Итоговое обобщение и инсайты

Интеграция AI в процессы построения DWH требует новых подходов к управлению данными и разработкой. Основная проблема — риск повреждения данных из-за ошибок AI, что делает традиционные методы отката и восстановления неэффективными. Концепция песочниц, реализуемая через отдельные базы данных для каждого разработчика, позволяет изолировать эксперименты и минимизировать риски.

Платформы данных, такие как asapBI, играют ключевую роль, автоматизируя создание и управление песочницами, а также интеграцию результатов в основные среды разработки и продакшена. Опыт Т-Банка демонстрирует практическую применимость и перспективность данного подхода.

Таким образом, песочницы становятся важным инструментом для безопасного и эффективного использования AI в DWH, обеспечивая гибкость, контроль и возможность быстрого тестирования гипотез без ущерба для основной базы данных.


📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ

Report Page