Почему всякому Data Scientist нужен свой Data Engineer

Data Scientist признали «самой сексуальной работой в XXI веке». The Harvard Business Review считает, что этот «гибрид дэйта-хакера, аналитика, переговорщика и доверенного советника» — редкое сочетание навыков, заслуживающих высокой зарплаты.
Слишком хорошо, чтобы быть правдой? Да, по словам Форбса. Оказывается, ученые-данные тратят большую часть своего времени (до 79%!) на работу, которую они больше всего ненавидят.

Спрос на Data Scientist:
Но с предложением немногим более 11 000 Data Scientist и быстро растущим спросом, конкуренция между работодателями для обеспечения этой роли довольно крутая. Американское Бюро Статистики Труда, прогнозирует, что к 2021 году спрос на таких работников будет на 50-60% выше, чем предложение. А Маккинзи предсказывает, что к 2021 году только Соединенные Штаты столкнутся с нехваткой 1,5 млн. аналитиков и менеджеров, знающих, как использовать большие данные для принятия решений.
Компании, которые не наймут data scientist сейчас, возможно, не смогут найти его вообще никогда.
Роль data scientists:
Однако, если у организации есть data scientists, что тогда? Как они культивируют среду, которая максимизирует навыки этого человека и заставляет его хотеть остаться
Сначала рассмотрим, что делает средний data scientist в течение всего дня:
- Создает тренировочные дата-сеты (3% времени)
- Очищает и организует данные (60%)
- Собирает наборы данных (19%)
- Рассматривает структуру данных (9%)
- Уточняет алгоритмы (4%)
- Другое (5%)
Тут мы видим, насколько непривлекательной стала профессия:
Подавляющее большинство data scientists соглашается с тем, что сбор данных, их очистка и организация являются самой нелюбимой частью работы.
Хуже того, сбор и организация данных не имеет ничего общего с анализом; это просто подготовка данных. Для это требуются определенные навыки, но это не наука о данных.
Компании могут освободить своих data scientists, посвящать на 79% своего времени анализу, если кто-то другой будет готовить данные. Мало того, что компании получат больше отдачи от каждого дополнительного момента, затраченного на анализ, но они позволят своим ученым делать то, что они любят.