OLAP-кубы: что это и как применяется в аналитике данных?

OLAP-кубы: что это и как применяется в аналитике данных?

Telegram channel @data_study

Собирали ли вы когда-нибудь кубик-рубика? Я собирал только по схеме) В любом случае вы представляете как он выглядит. Кубик, который состоит из более мелких кубиков, при этом сам куб можно крутить в разных направлениях (вправо-влево, вверх-вниз) 

Именно с помощью кубика-рубика можно представить себе принципы работы с OLAP-кубами. Давайте разберем их чуть подробней. 

OLAP (online analytical processing) - метод построения аналитической системы для работы и обработки многомерных данных. 

OLAP-куб с измерениями Time, Product, Region

Что такое многомерность данных?

Мы можем смотреть на показатели и значения в данных с разных сторон (измерений). Например, на продажи продуктов мы можем посмотреть со стороны категорий продуктов и агрегировать данные по категориям, либо мы можем смотреть на них по измерению времени и сравнить продажи за разные месяцы или годы. Либо мы также можем смотреть на те же продажи в измерении регионов и сравнивать суммы продаж между регионами. Все это будет разными измерениями, которые строят оси многомерного куба данных. 

Осями куба будут являться наши измерения данных, которые мы выбираем из атрибутов таблиц. Значениями внутри куба будут являться агрегированные метрики и показатели, которые нам важно анализировать.

С помощью OLAP-кубов в хранилище данных можно искать данные, которые нужно применить для текущей задачи анализа, отфильтровать при этом все остальные измерения и подмножества данных из выборки. Есть несколько стандартных операций, которые применяются при работе с многомерными данными. 

  • Slice (срез данных) 

Из многомерного куба делают выборку данных с помощью фильтрации по одному из измерений 


  • Dice (кубики данных) 

Выборку данных делают с помощью фильтрации данных по двум и более измерениям


  • Drill up (консолидация) 

Переход на более высокий уровень детализации в данных, когда нужно смотреть на данные в обобщенном виде с агрегацией результатов. 


  • Drill down (Детализация) 

Углубление в более низкие уровни детализации данных по измерениям. 


  • Pivot

Изменение расположения измерений (осей куба) в пространстве для более удобного анализа или отображения в отчетах 

Операции над OLAP-кубом

В зависимости от потребностей бизнеса и цели создания OLAP-кубов, можно использовать разные подходы к их построению.

ROLAP (Реляционные OLAP) 

Такие кубы строятся за счет проектирования и построения многомерной модели данных реляционных БД с помощью связей таблиц между собой. Часто в таком случае используется схема Звезда, которая помогает добавить множество измерений в многомерную модель, при этом минимизируя количество связей между таблицами

MOLAP (Многомерные OLAP) 

Этот способ подразумевает использование специальных технических решений, которые позволяют строить многомерные хранилища данных. Один из примеров - SQL Server Analysis Services (SSAS) 

HOLAP (Гибридный OLAP)

Это способ построения аналитического решения на основе ROLAP и MOLAP, когда данные могут храниться в разных системах. В зависимости от стека использующихся технологий варианты архитектуры HOLAP могут быть очень разные


Telegram канал про аналитику данных и бизнес-анализ





Report Page