Дата инженер, дата-сайентист и аналитик данных — в чём разница?
Жанна АзизоваВсем привет! Прежде чем мы начнем погружаться в особенности каждой специальности, хотелось бы сделать важный дисклеймер: не существует универсального описания вакансии. Все сильно зависит от многих факторов: в большей степени компании и ее размера/зрелости, а также от индустрии и специфики бизнеса. Поэтому очень важно вчитываться в описание каждой вакансии, изучать требования и общаться с представителями компании для того, чтобы понять, о чем на самом деле идет речь и чем вам реально предстоит заниматься.
Дальше я попробую описать наиболее часто встречающееся определение каждой из 3-х востребованных вакансий.
Data scientist
Дата-сайентист – специалист, который пробирается через море неструктурированных данных для того, чтобы вытащить ценную для бизнеса информацию. Один из ценнейших навыков дата-сайентиста – понимание бизнес-задач, будь то задачи ценообразования или сокращения оттока пользователей.
Дата-сайентист с помощью алгоритмов машинного обучения и не только помогает бизнесу находить скрытые закономерности, прогнозировать вероятность наступления важных событий, сегментировать клиентов и оптимизировать ключевые бизнес-процессы.
Спектр задач, решаемых дата-сайентистами, очень широк. К типовым можно отнести:
- Обучение моделей машинного обучения
- Проведение и оценка результатов АБ-тестов
- Составление отчетов и визуализаций по результатам своей работы
Примерами работы может быть предсказание вероятности отписки клиентов или кластеризация пользователей на схожие по поведению группы с помощью алгоритмов машинного обучения.
Что нужно знать и уметь дата-сайентисту?
Как минимум, требуются глубокое понимание высшей математики, линейной алгебры и статистики, знание основ машинного обучения и навыки программирования на Python или R. Не менее важны умения решать проблемы и искать новые идеи и решения. В идеале дата-сайентист должен еще быть коммуникабельным, уметь работать в команде и правильно преподносить результаты своего труда .
Data analyst
Роль аналитика требует меньшей технической подготовки по сравнению с data scientist, хотя во многом они похожи и их часто путают. Чаще всего, дата-аналитики отвечают на вопросы своей команды с помощью данных, проводят статистический анализ и переводят цифры на человеческий язык в виде отчетов и визуализаций.
У аналитиков могут быть более узкие специализации: маркетинг, финансы, веб-аналитика и так далее. В таком случае круг задач специалиста строится вокруг этой области. Примером работы маркетингового аналитика может быть оценка эффективности маркетинговой кампании и ее влияния на продажи. Финансового – оценка рентабельности продаж в новой точке.
В последнее время гораздо чаще под аналитиком данных подразумевается продуктовый аналитик. Это специалист, который помогает компании и команде растить продукт (развивать его) с помощью построения системы метрик, АБ-тестирования и анализа больших данных.
Что нужно знать и уметь аналитику?
Математику и статистику, владеть инструментами для очистки (подготовки для анализа), обработки и визуализации данных: SQL, Python или R, Tableau или Power BI и т. п.. При этом, аналитику, как и дата-сайентисту, очень важно иметь развитые софт-скиллы, потому что он постоянно взаимодействует с менеджментом и другими представителями компании или своей команды. Он должен уметь объяснять сложные концепции на доступном языке и отлично понимать, что от него хотят заказчики/команда.
Data engineer
Эти ребята ответственны за получение, обработку и хранение данных. Благодаря их работе, дата-аналитики и дата-сайентисты имеют доступ к качественным данным и могут доверять им, со спокойной душой обучая свои модели и давая бизнесу ответы на его вопросы.
Дата-инженер, с одной стороны, разрабатывает, тестирует и поддерживает инфраструктуру по работе с данными: базы данных, хранилища и системы массовой обработки. С другой стороны, очищает и «причесывает» данные для использования аналитиками и дата-сайентистами, то есть создаёт конвейеры обработки данных.
Что нужно знать и уметь дата-инженеру?
Знания машинного обучения и статистики для дата-инженера не обязательны, но требуются продвинутые навыки программирования, SQL, Hive, Pig, Matlab, SAS, Python, Java, Ruby, C++, Perl, популярные API и ETL-инструменты.
Из-за отсутствия четко разграниченных ролей некоторые компании ищут широкопрофильных специалистов, которые прекрасно разбираются в статистике, математике, машинном обучении, дата-инженерии, программировании, бизнес-задачах и визуализации одновременно. Такие люди встречаются, но их очень мало. Обычно, дата-сайентисты глубже погружены в математику и программирование, чем дата-аналитики, но у них менее развитое продуктовое и бизнес-мышление или владение BI-инструментами.
Чем крупнее компания, тем выше вероятность, что там будут работать разнопрофильные специалисты: и инженер, и аналитик, и сайентист. В стартапах компетенции всех трех специалистов может совмещать один человек — он будет заниматься всем: сбором, подготовкой и визуализацией данных , извлечением из них инсайтов, проведением и анализом АБ-тестов, обучением нейросетей и другими задачами.
