Data Scientist

Data Scientist

Кто такой и как им стать?

Что такое Data Science?

Data Science — это применение научных методов при работе с большими данными, чтобы найти нужное решение. 

Большие данные — это огромные объёмы неструктурированной информации: например, метеоданные за какой-то период, статистика запросов в поисковых системах, результаты спортивных состязаний, базы данных геномов микроорганизмов и многое другое. Ключевые слова здесь — «огромный объём» и «неструктурированность». Чтобы работать с такими данными, используют математическую статистику и методы машинного обучения.

В широком смысле, естественные науки основаны на Data Science. Например, биолог проводит эксперименты и анализирует результаты для проверки своих гипотез. Он должен уметь обобщать частные наблюдения, исключать случайности и делать верные выводы. 

Чем занимается Data Scientist?

Data Scientist — это специалист по анализу больших данных.

Часто Data Scientist решает общие задачи, характерные для любого бизнеса: проанализировать поведение покупателей, привлечь и удержать клиента, предугадать спрос, построить систему рекомендаций, запустить эффективную акцию.

Но бывают и специфические задачи: банк хочет предсказать вероятность возврата кредита, колл-центр — автоматизировать ответы на часто задаваемые вопросы. С этим тоже помогает Data Scientist. Бывает и так, что Data Scientist не решает конкретную задачу, а анализирует текущую ситуацию и ищет зоны роста для компании.

Как им стать?

Представим, что вы начинаете с нуля: без навыков программирования, знания математики, опыта работы с данными, высшего технического образования. Тогда мы советуем вам пойти на обучающие курсы или воспользоваться помощью ментора. 

Но есть вариант освоить Data Science самостоятельно даже в том случае, если вы далеки от технологий. Это тернистый путь, на котором вам понадобится много мотивации, свободного времени, терпения и силы воли.

Итак, дорожная карта профессии Data Scientist:

Шаг 1: Изучите язык программирования

Сначала изучите язык программирования, например, Python или R. Лучше Python, потому что он используется более широко, чем R.

Можно найти много разных курсов. Один из возможных вариантов  — Изучение Python — полный курс для начинающих.

Но просто изучение основ не поможет выучить и понять Python, вам следует попрактиковаться. Есть сайты, которые в этом помогут: список из десяти наиболее популярных.

Шаг 2: Изучите математику

Есть пара тем, которые вам нужно понять. Не волнуйтесь, математика не так ужасна, как может показаться. Постарайтесь вникнуть и узнать как можно больше. 

Темы, которые пригодятся:

Шаг 2: Библиотеки Python для науки о данных

В Python есть несколько библиотек для Data Science, которые называются NumPy, Pandas и т. д. Нужно с ними ознакомиться — посмотрите урок Python для науки о данных. Этот урок рассказывает про каждую концепцию от самых основ.

Шаг 4: Инструменты для науки о данных

SQL — обязательный навык для дата-сайентиста, так как одним из ключевых процессов моделирования данных является, прежде всего, их извлечение. В большинстве случаев вам будет нужно уметь запускать SQL-запросы к базам данных.

Пара полезных ссылок:

Шаг 5: Машинное обучение

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для выполнения опре­де­лён­ных за­дач. По­это­му ма­шин­ное обучение име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой обла­сти, но преж­де всего бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Для обучения можете использовать курс  Машинное обучение от Стэнфордского университета (Coursera, прохождение курса не будет стоить вам денег, если вы не хотите получить сертификат). Этот курс дает прочные основы, но он заточен на MATLAB, поэтому вам нужно все сделать в Python.

Или выбрать — Бесплатный 10-часовой курс машинного обучения.

Шаг 6: Практика

Заходите на Kaggle, изучайте ядра и участвуйте в соревнованиях.

Kaggle — это ресурс для специалистов по Data Science. Здесь можно изучать машинное обучение, писать свои и разбирать чужие прогнозные модели, участвовать в соревнованиях и общаться с дата-сайентистами. Сервис полностью бесплатен. 

 Шаг 7: Сообщество

Присоединяйтесь к хорошему сообществу. Например, к ods.ai — сообществу из 15 тысяч активных российских специалистов по данным (кстати, это сообщество открыто для специалистов по данным из любых стран).

Это только начало. Следование этой дорожной карте (или выполнение чего-то подобного) поможет вам начать свой путь к тому, чтобы освоить Data Science. Остальное зависит от вас!


Минусы профессии:

— Работа в режиме многозадачности с большим объемом данных

— Необходимо постоянно повышать квалификацию, осваивать новые инструменты и технологии

— В этой профессии не получится идти по накатанной, часто приходится разрабатывать новые методы

— Мало времени на отдых — особенно на старте карьеры


Плюсы профессии:

— Высокий доход

— Острая нехватка специалистов, вы будете нарасхват 😎

— Постоянное обучение (очень тяжелый плюс, но с ним надо смириться)

— Ваши модели будут напрямую влиять на развитие компании и выручку


Вместо вывода…

Стать профессионалом в Data Science — это путь не из легких. Много времени, сил и нервных клеток придется потратить на обучение, даже если вас будут окружать самые заботливые менторы. Но и награда стоит того: обеспеченная жизнь, гордость за себя и свою работу, профессиональный авторитет и востребованные навыки. 

Прежде чем оплачивать курсы, попробуйте погрузится в тему по нашему плану. Если Python, SQL, машинное обучение и математика вызовут у вас интерес, то скорее всего Data Science — это ваше. Можете покупать курсы или изучать науку о данных самостоятельно.

Если же всё вышеперечисленное покажется вам скучным и унылым, то нужно продолжать искать дальше. В IT есть много прекрасных профессий, какая-то из них обязательно придется вам по душе 😊




Report Page