Datahub vs OpenMetadata

Datahub vs OpenMetadata

https://t.me/devops_dataops

Подписывайтесь на канал Data Engineering: https://t.me/devops_dataops


Несколько выводов, которые удалось получить при тестировании двух решений Data Management (Datahub vs OpenMetadata):

  • Datahub позволяет создавать описание для многоуровневых дата каталогов (например, если у вас файловое хранилище данных на qvd или sas, или файлики google sheets/excel);
  • Datahub имеет очень неудобный data lineage (упоминал ранее, нет возможности открыть полностью все дерево зависимостей);
  • Datahub позволяет выгрузить все зависимости в файл (это удобно, но в openmetadata по идее можно через подключение к БД создать аналогичный отчет в BI);
  • Оба инструмента содержат глюки в интерфейсе (html, css плохо отображаются надписи при большом количестве символов);
  • OpenMetadata намного приятнее в плане исследования Data Catalog (понравились фильтры и визуально лучше выглядит);
  • OpenMetadata содержит ограниченную структуру каталога Service -> Database -> Schema -> Table;
  • У OpenMetadata есть симпатичный функционал для версионирования и коллаборации (общения между членами команды), можно создавать запросы на описание полей (правда на почту вроде ничего не падает, возможно нужна настройка);
  • Архитектура OpenMetadata попроще, чем у DataHub. Вероятно это поспособствует более быстрому развитию инструмента (гипотеза);
  • Внутри OpenMetadata Ingestion встроен Apache Airflow;
  • Образ OpenMetadata лежит на серверах Amazon, поэтому для скачивания потребуется VPN.


Выбрали OpenMetadata, посмотрим, насколько это оправдается. Вообще не исключаю, переход к Datahub, в случае выявления чего-то критичного. По большей части, решение OpenMetadata победило с точки зрения UI/UX. Ну и по части сапорта он выглядит значительно проще (а значит и надежнее при обновлениях).

Report Page