Data Science и Big Data: сходства и различия
Термины
Data Science
Data Science – междисциплинарная область, которая охватывает практически все, что связано с данными: от их подготовки до очистки и анализа. Data Science использует научные методы и алгоритмы для работы как со структурированными, так и с неструктурированными данными. Эта область сочетает в себе статистику, математику, машинное обучение, решение проблем и многое другое.
В статье «Научиться Data Science онлайн мы подробнее рассказали, чем занимаются специалисты Data Science и как овладеть профессией с нуля.
Big Data
Big Data – область, в которой рассматриваются различные способы анализа и систематического извлечения больших объемов данных. Big Data включает применение механических или алгоритмических процессов получения оперативной информации для решения сложных бизнес-задач. Специалисты по Big Data работают с сырыми неструктурированными данными, результаты анализа которых используются для поддержки принятия решений в бизнесе. Аналитика больших данных включает проверку, преобразование, очистку и моделирование данных.

Работа с большими данными строится вокруг четырех правил (c англ. V’s of Big Data: Volume, Velocity, Variety, Veracity):
- Объем: объем данных, которые могут собирать компании, действительно огромен, и поэтому их размер становится критическим фактором в аналитике.
- Скорость: высокая скорость, с которой генерируется информация. Практически все происходящее вокруг нас (поисковые запросы, социальные сети и т. д.) производит новые данные, многие из которых могут быть использованы в бизнес-решениях.
- Разнообразие: генерируемая информация неоднородна и может быть представлена в различных форматах, таких, например, как видео, текст, базы данных, числовая информация, сенсорные данные и т. д. Понимание типа больших данных является ключевым фактором для раскрытия их ценности.
- Достоверность: достоверность относится к качеству анализируемых данных. Данные высокой достоверности содержат много записей, которые ценны для анализа и которые вносят значимый вклад в общие результаты. С другой стороны данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом.
О том, чем занимаются специалисты по анализу больших данных, мы подробнее писали в статье «Big Data: размер имеет значение».

Применение
Data Science
- Цифровая реклама: алгоритмы Data science используются во всей области цифрового маркетинга – от рекламных щитов до рекламных баннеров.
- Поиск в интернете: алгоритмы Data science также применяются поисковыми системами для получения наилучших результатов по запросам в течение нескольких секунд.
- Рекомендательные системы: компании используют технологии Data Science для продвижения своих продуктов, а также для выдачи рекомендаций в соответствии с актуальностью информации и требованиями пользователя. Эти системы не только улучшают пользовательский опыт, но и облегчают поиск продуктов или услуг.
Big Data
Аналитика больших данных применяется в самых разных областях. Перечислим некоторые из них:
- Игровая индустрия использует BigData, чтобы получить информацию о таких вещах, как симпатии, антипатии, отношения пользователей и т. д.
- Поставщикам медицинских услуг аналитика больших данных нужна для отслеживания и оптимизации потока пациентов, отслеживания использования оборудования и лекарств, организации информации о пациентах и т. д.
- Туристические компании применяют методы анализа больших данных для оптимизации опыта покупок по различным каналам. Они также изучают потребительские предпочтения и желания, находят корреляцию между текущими продажами и последующим просмотром, что позволяет оптимизировать конверсии.
Использование больших данных становятся эффективной основой для конкуренции практически во всех сферах. Независимо от того, к какой отрасли вы обратитесь, здравоохранение и персонализированная медицина, или логистика и операции, все они пытаются повысить эффективность своих цепочек поставок с помощью данных.
Майкл Чуи, партнер McKinsey Global Institute Источник

Навыки
Data Science
Чтобы стать профессионалом в области Data Science, необходим аналитический склад ума, а также навыки управления данными. Большой процент специалистов имеет степень магистра в сфере компьютерных наук и знания в области статистики и математики. Вам также потребуются навыки программирования на Python и SQL, визуализации данных в Tableau и/или PowerBI, работы с библиотеками для машинного обучениями: Pandas, Scikit-learn и NumPy. Наряду с техническими навыками, специалисты Data Science должны обладать набором soft-skills: коммуникабельностью, умением донести информацию простым языком, способностью работать в команде. Самое главное – умение самостоятельно и быстро учиться.
Подробнее о том, как самостоятельно овладеть всеми ключевыми навыками, мы писали в статье «10 навыков, необходимых в профессии Data Scientist».
Big Data
Специалист по анализу больших данных должен хорошо разбираться в таких языках программирования, как R и/или Python и SQL. Наряду с хорошими знаниями статистики и математики, ему потребуются навыки работы с инструментами, вроде Hadoop или Spark, для решения проблем, связанных с огромными объемами данных и их распределенной обработкой. Необходимо владеть навыками визуализации и преобразования данных, а также разбираться в машинном обучении.
О том какие навыки необходимы в сфере Big data, мы подробно писали в статье «Стать аналитиком Big Data: пошаговое руководство».

Обязанности
Data Science
Учитывая огромное количество ежедневно обрабатываемых с помощью различных устройств по всему миру данных, организации заинтересованы в получении ценной информации из этого потока. Специалисты Data Science выполняют исследовательский анализ, а также используют различные виды алгоритмов машинного обучения для составления прогнозов определенных событий. Они сосредоточены на выявлении неизвестных корреляций, скрытых моделей и рыночных тенденций.
Big Data
В обязанности аналитиков больших данных входит работа с большим количеством разнородной информации, собранной из различных источников и поступающей с высокой скоростью. Специалисты по Big Data описывают поведение и структуру данных, а также то, как они могут быть представлены с помощью инструментов анализа: Spark, Hadoop и т. д.
Ключевые обязанности специалиста по Big Data включает понимание идей и тенденций, которые выявляются с помощью огромных наборов данных. После преобразования неструктурированной информации, бизнесу становится ясно, чего именно хотят клиенты, какие продукты продвигаются быстрее, каковы ожидания пользователей от обслуживания, как ускорить выход продукта на рынок и какие способы снижения затрат существуют. Большие данные явно приводят к большим временным выгодам для организаций, поэтому существует огромный спрос на специалистов в данной области.

Карьерные перспективы
В российском IT-секторе, есть тенденция к разделению специалистов по Data Science и Big Data при найме на работу. Однако по запросам Big Data в Яндекс.Работа и HeadHunter, можно заметить, что анализ больших данных включен в описание вакансий как Data Scientist, так и Big Data Engineer.
Начальная зарплата Data Scientist с опытом работы до года – от 113 тыс. рублей. Через 1 – 2 года такой специалист уже может получать до 160 тыс. рублей. Для сотрудника с опытом работы от 4 – 5 лет вилка вырастает до 310 тыс. По запросу на октябрь 2020 года для специалиста Big Data, средняя зарплата по России составляет около 118 тыс. рублей.
Источник https://proglib.io/p/data-science-i-big-data-shodstva-i-razlichiya-2020-10-20