Datahub vs OpenMetadata
https://t.me/devops_dataops
Подписывайтесь на канал Data Engineering: https://t.me/devops_dataops
Несколько выводов, которые удалось получить при тестировании двух решений Data Management (Datahub vs OpenMetadata):
- Datahub позволяет создавать описание для многоуровневых дата каталогов (например, если у вас файловое хранилище данных на qvd или sas, или файлики google sheets/excel);
- Datahub имеет очень неудобный data lineage (упоминал ранее, нет возможности открыть полностью все дерево зависимостей);
- Datahub позволяет выгрузить все зависимости в файл (это удобно, но в openmetadata по идее можно через подключение к БД создать аналогичный отчет в BI);
- Оба инструмента содержат глюки в интерфейсе (html, css плохо отображаются надписи при большом количестве символов);
- OpenMetadata намного приятнее в плане исследования Data Catalog (понравились фильтры и визуально лучше выглядит);
- OpenMetadata содержит ограниченную структуру каталога Service -> Database -> Schema -> Table;
- У OpenMetadata есть симпатичный функционал для версионирования и коллаборации (общения между членами команды), можно создавать запросы на описание полей (правда на почту вроде ничего не падает, возможно нужна настройка);
- Архитектура OpenMetadata попроще, чем у DataHub. Вероятно это поспособствует более быстрому развитию инструмента (гипотеза);
- Внутри OpenMetadata Ingestion встроен Apache Airflow;
- Образ OpenMetadata лежит на серверах Amazon, поэтому для скачивания потребуется VPN.
Выбрали OpenMetadata, посмотрим, насколько это оправдается. Вообще не исключаю, переход к Datahub, в случае выявления чего-то критичного. По большей части, решение OpenMetadata победило с точки зрения UI/UX. Ну и по части сапорта он выглядит значительно проще (а значит и надежнее при обновлениях).