Аналитик Данных
Стартовая страница когорты в Notion
Конспекты и дополнительные материалы
Изменения в «Юпитере» и оформлении проектов
Как называть учебные (и не только) файлы
Отправить проект на повторную проверку
Как встроить сторонний файл с данными в проект
https://jupyterhub.praktikum-services.ru/user/user-0-198652462/notebooks/morozov_project_5_v_0.ipynb
1 — Базовый Python
2021-11-07 Будни аналитика и работа со списками - Константин Башевой 0.25
2021-11-13 Функции, классы + читаем ошибки - Леонид Медников
https://python-scripts.com/f-strings
2 — Предобработка данных
https://code.s3.yandex.net/data-analyst/conspects/description_project_course1.pdf
https://loginom.ru/blog/missing
https://habr.com/ru/company/ruvds/blog/442516/
https://habr.com/ru/post/275937/
https://proglib.io/p/pandas-tricks
см. книгу Джозефа О'Коннора «Искусство системного мышления»
ознакомьтесь с теорией Нассима Талеба о «чёрных лебедях». А ещё лучше, прочитайте его книгу, которая так и называется
2021-11-21 - Фильтры и как чинить ошибки - Константин Башевой
2021-11-27 Базовый обзор данных и groupby - Леонид Медников
3 — Исследовательский анализ данных
2021-12-05 - Группировки и объединения - Константин Башевой
2021-12-11 Гистограммы - Леонид Медников
- Декомпозиция второго проекта от @Алексей Козинов
- Ретроспектива спринта Исследовательский анализ данных от @Дарина Кухтина
- Фишки проекта EDA от @Эльвира Насирова / Elvira Nassirova
- Отчёт по продажам от @Gleb Mikhaylov
- Как построить красивые графики от @Aleksandr Sinyukov
- Разбор типов визуализаций на примере данных проекта от @Юрий Беляков
- Разбор "предобработки данных" и вводная по EDA от @Лена Эльзессер
Описательные статистики: среднее, медиана, стандартное отклонение, перцентили
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.hist.html
Индексация с использованием логических выражений
Диаграммы рассеяния (и другие графики)
Построение графиков в Python при помощи Matplotlib
Группировка с groupby
, раздел «Группировка данных»
4 — Статистический анализ данных
2021-12-19 - Задачки на статистику и list comprehension - Константин Башевой
Математическое ожидание и дисперсия случайной величины
Как вычислить математическое ожидание?
Электронный учебник по статистике
Основные понятия теории вероятностей.
Проверка статистических гипотез
5 — Сборный проект №1
Бесплатный тренажёр «Основы математики для цифровых профессий»
Проект глазами ревьюера
6 — Базовый SQL
- Руководство по стилю SQL —основные рекомендации по стилю и оформлению запросов.
- Памятка/шпаргалка по SQL — объёмная структурированная статья, в которой собрали основные понятия, операторы и методы работы с базой данных.
- Нормализация реляционных баз данных — статья о том, как, пользуясь важными понятиями реляционной теории, можно спроектировать логичную базу данных.
- Нормализация отношений. Шесть нормальных форм — материал о том, какие методы нормализации использовать при проектировании базы данных.
7 — Анализ бизнес-показателей
- Статья «Как правильно считать прибыль» на VC.ru;
- Статья «Оптимизация конверсии — полная инструкция: от основ до продвинутых техник» там же.
Когортный анализ
- Статья «Когортный анализ. Метрики продукта vs метрики роста» на GoPractice,
- Статья «Когортный анализ в маркетинге интернет-магазина» в блоге Oh My Stats,
- Статья «Когортный анализ в Pandas» в блоге Алексея Куличевского,
- Видео «О недооцененной конверсии и когортах» на YouTube.
Немного про суть изучаемых нами графиков. Основа это когортный анализ: Каждый конкретный день пользователи нашего приложения состоят из тех, кто только начал его использовать и тех кто уже использовал его ранее - вчера, неделю назад, месяц назад и т.д. Выводы по всей этой куче пользователей сделать нереально! Идея когортного анализа состоит в том, чтобы разделить пользователей на группы по определенным признакам, и отслеживать поведение этих групп во времени. Обычно группы пользователей (когорты) выделяют на основе недели, двух недель, месяца - когда пользователи зарегистрировались в приложении. Выделив такие группы пользователей (когорты) можно следить за ними в течение времени и измерять ключевые метрики для каждой отдельной когорты. Таким образом, сравнивая показатели разных когорт пользователей можно наглядно сравнивать соответствующие этим периодам времени метрики.
Вот тут можно почитать подробней:
https://blog.ohmystats.com/cohort-analysis/
https://gopractice.ru/cohort_analysis/
https://smysl.io/blog/pandas-cohorts/
Юнит-экономика
- Цикл статей на Medium о комплексной оценке компаний от фонда Social Capital:
- Diligence at Social Capital Part 1: Accounting for User Growth,
- Diligence at Social Capital Part 2: Accounting for Revenue Growth,
- Diligence at Social Capital Part 3: Cohorts and (revenue) LTV,
- Diligence at Social Capital Part 4: Cohorts and (engagement) LTV.
- Статья «Гайд: разобраться в юнит-экономике за один день» на VC.ru.
- Статья «Юнит-экономика за 30 слов. Расчёт юнит-экономики без калькулятора» на GoPractice.
Пользовательские метрики
- Статья «Как выбирать правильные метрики для продукта» на Medium,
- Статья «Семь раз отмерь, один раз отрежь: как не запутаться в метриках продукта, процесса и счастья команды» на Хабре,
- Статья «Когортный анализ: метрики роста против метрик продукта» на VC.ru,
- Цикл видео «Яндекс.Метрика для бизнеса» на YouTube,
- Блог и твиттер Яндекс.Метрики.
8 — Принятие решений в бизнесе
Основы проверки гипотез в бизнесе
Что почитать:
Олег Якубенков, статья «Когортный анализ: Метрики роста против метрик продукта»: https://vc.ru/flood/4242-cohort-analysis
Видео с ProductCampNsk Наталья Кунгурова, «Декомпозиция годовых целей, формирование метрик для продукта» https://www.youtube.com/watch?v=weU2tzDE6Ko
Мозговой штурм
https://4brain.ru/blog/мозговой-штурм/
ТРИЗ
https://www.altshuller.ru/triz/
User Journey
UX-исследование
https://medium.com/@grifer163/полное-руководство-новичка-по-ux-исследованию-319d69c928cb
https://habr.com/ru/post/347994/
https://askusers.ru/blog/pravila/testirovanie-saytov/
Customer Development
https://vc.ru/marketing/53090-vvedenie-v-customer-development
https://vc.ru/flood/42281-gid-po-customer-development-dlya-produktovyh-menedzherov
Выбор метода проведения эксперимента
https://vc.ru/design/39449-problemnoe-intervyu-ili-kak-proverit-svoyu-ideyu-na-polzovatelyah
https://vc.ru/marketing/33082-customer-development-50-voprosov-dlya-intervyu
Приоритизация гипотез
Матрица Эйзенхауэра
https://4brain.ru/blog/матрица-эйзенхауэра/
WSJF
https://medium.com/agiletransformation/wsjf-или-приоритезация-когда-все-вокруг-сложно-9ed97ff479be
ICE/RICE
https://habr.com/ru/company/hygger/blog/422131/
https://habr.com/ru/company/hygger/blog/424323/
Подготовка к проведению A/B-теста
https://gopractice.ru/how-not-to-analyze-abtests/
Анализ результатов A/B-теста
https://indicator.ru/mathematics/udovolstvie-ot-x-stiven-strogac.htm
9 — Как рассказать историю с помощью данных
Сезонность и внешние факторы
Познакомьтесь с исследованием Яндекса «Как меняется спрос на товары и услуги в течение года»
Есть и другие известные парадоксы. Их часто спрашивают на собеседованиях. Например,
Где ещё почитать про презентацию результатов исследования:
Школа менеджеров Яндекса — про презентации
Библиотека seaborn
Самостоятельно изучите применение встроенных стилей в matplotlib в документации: https://matplotlib.org/tutorials/introductory/customizing.html
Библиотека seaborn
Как работать со странными корреляциями в данных
Подборка цветовых палитр для визуализации данных
Библиотека plotly
Немного про кино или как делать интерактивные визуализации в python
Качественно новый уровень визуализации данных в Python
Событийная аналитика
Как настроить систему аналитики для мобильного приложения
10 — Автоматизация
Что такое дата-пайплайны и зачем они нужны
Проектирование и разработка дашбордов в dash
Прочитайте про SQLite подробнее здесь: https://habr.com/en/post/149356/.
Проектирование и разработка дашбордов в dash
11 — Основы машинного обучения
Вот ссылки на материалы, которые помогут вам закрепить полученные знания, узнать про ML-сообщество или просто разнообразить досуг занимательным чтением:
- «Стартовая» страница профессионального ресурса про машинное обучение (на русском языке) — определения и формулы:
http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение
- Курс в формате статей на Хабр от OpenDataScience-сообщества и ссылка на их страницу:
https://habr.com/ru/company/ods/blog/322626/
- Конспект на русском языке книги Machine Learning Yearning, Andrew Ng)
https://habr.com/ru/post/321368/
- Блог Дьяконова:
https://alexanderdyakonov.files.wordpress.com/2018/12/intro2datamining.pdf
- Вместо библии для начинающих строителей моделей:
https://scikit-learn.org/stable/
Материалы, которые помогут вам закрепить и детализировать полученные знания:
- Общие ссылки (на материалы на серии лекций или статей по алгоритмам ML):https://www.youtube.com/playlist?list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK
- https://habr.com/ru/company/ods/blog/322626/
- https://dyakonov.org/map/ (раздел «Машинное обучение», «Алгоритмы»)
- Линейная регрессия и градиентный спускhttps://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem07_linear.pdf
- https://www.youtube.com/watch?v=qlLChbHhbg4&feature=youtu.be&list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&t=50m16s
- Логистическая регрессияhttps://habr.com/ru/company/ods/blog/323890/#2-logisticheskaya-regressiya
- https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem10_linear.pdf
- В этом курсе не были рассмотрены некоторые алгоритмы классификации, такие как KNN. О нём можно почитать тут:https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem02_knn.pdf
- https://habr.com/ru/company/ods/blog/322534/#metod-blizhayshih-sosedey
- Решающие деревьяhttps://scikit-learn.org/stable/modules/tree.html
- https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem04_trees.pdf
- Ансамбли. Случайный лес:https://habr.com/ru/company/ods/blog/324402/
- dyakonov.org/2016/11/14/случайный-лес-random-forest/
- Ансамбли. Градиентный бустинг:http://www.machinelearning.ru/wiki/images/7/7e/Sem03_ensembles_2014.pdf
- https://habr.com/ru/company/ods/blog/327250/
- Реализации градиентого бустинга, которые чаще всего используют: CatBoost и LightGBM. Их детальное рассмотрение не вошло в этот курс, но вы можете почитать про них подробнее:catboost: https://yandex.ru/dev/catboost/
- lightgbm: https://github.com/Microsoft/LightGBM
- Кластеризация и метрики кластеризации:https://habr.com/ru/company/ods/blog/325654/
- Методы снижения размерности (задача обучения без учителя) не вошли в этот курс, но почитать о них можно тут:http://www.machinelearning.ru/wiki/images/a/a4/MOTP11_5.pdf
- https://habr.com/ru/company/ods/blog/325654/ (разбор метода главных компонент)
Однако мы приводим источники, которые, при необходимости, помогут вам разобраться с ними:
- построение и отбор признаков:https://habr.com/ru/company/ods/blog/325422/
- разбиение выборки:https://www.youtube.com/watch?v=8jVUPFtYR0g
- подбор параметров алгоритмов (гиперпараметров):https://www.youtube.com/watch?v=kBhYSbh0wg8
- https://www.youtube.com/watch?v=EXGeYEuqtbs
- интерпретация моделей:https://dyakonov.org/2018/08/28/интерпретации-чёрных-ящиков/
“Y,M,R” Шорткаты для конвертации типов ячеек
- Y — code
- M — markdown
- R — raw
https://github.com/konicaRu/i_am_data_analyst
https://github.com/Higem11/Yandex-Data-Analysis
https://github.com/alexeiveselov92/Yandex-Data-Analysis
https://github.com/KuzmichVK/Yandex.Practicum_projects
https://github.com/Drewleks/yandex_praktikum
https://re-thought.com/how-to-suppress-scientific-notation-in-pandas/
Чтобы пройти программу необходимо заполнить форму.
Несколько важных моментов:
- при заполнении формы, мы просим указать 2 ваши почты: 1 почта, которая закреплена за вами в тренажере Яндекс.Практикума; 2 почта, которую используете для входа в Slack. Если указанные почты будут некорректными, то добавление не произойдет.
- в день запуска вам придет приглашение в Slack-канал da_ds_employment_28_n (где n – номер группы) в этом канале появится ссылка, при переходе вам будет открыт доступ карьерному треку в тренажере
- в начале каждого месяца открывается регистрация на новые потоки трудоустройства, поэтому если не удаётся пройти в феврале, то можно будет пройти в любой другой месяц.
- в программе трудоустройства можно будет участвовать и после окончания курса,
- но только в течении первых 6 месяцев
Программа полностью бесплатная. Мы поможем подготовить резюме, собрать портфолио, написать сопроводительное письмо, пройти видео-интервью и составить небольшой карьерный план.
Карьерный трек проходит в тренажере, в Slack-канале же можно задавать вопросы и просить помощь в случае проблем или сложностей.
В улучшении карьерных артефактов вам будет помогать обратная связь от команды HR-экспертов, с реальным рекрутёрским опытом в Яндексе, ManyChat, EPAM и других IT-компаниях
Успешное прохождение программы обеспечит вас артефактами, пригодными для реальной рассылки работодателям.
Программа трудоустройства состоит из 4 спринтов:
Резюме (2 недели) Упаковка опыта работы и правильно представляем обучение в Яндекс.Практикуме, для прохождения скрининга рекрутером.
Портфолио (2 недели) Собираем проекты выполненные за обучение и упаковываем в портфолио на Github, для прохождения скрининга техническим экспертом.
Сопроводительное письмо (2 недели) Правильно формулируем сопроводительное письмо, чтобы отклик был замечен рекрутером или представителем компании.
Публичное собеседование (2 недели) 2 раза в месяц мы будем проводить публичные собеседования в которых можно принять участие как Зритель (посмотреть и послушать со стороны, сделать пометки, задать вопросы) или Участник (лично пройти собеседование у рекрутера, получить обратную связь по ответам на вопросы рекрутера и предоставленном резюме, задать вопросы).
Публичные собеседования будут доступны как в Программе Трудоустройства, так и в Акселерации.После выполнения 4 спринта в в Slack-канале потока появится форма для регистрации в программу Акселерации.Акселерация - это практика поиска работы под нашим наставничеством. Мы поддержим вас на протяжении всего процесса поиска работы, проконсультируем по сложным вопросам. Но результат полностью зависит от ваших усилий и мотивации.Акселерация проходит в отдельном слак-пространстве и телеграм-канале.
- Вы делаете регулярные отклики на вакансии, решаете тестовые задания, проходите собеседования.
- Мы делимся вакансиями партнеров, а также помогаем находить инсайты в формате сессий Q&A и вебинаров с HR тематикой и приглашенными гостями в числе которых лиды аналитики и рекрутеры.
По любым вопросам, касающимся программы трудоустройства и любым техническим вопросам — @Ekaterina Efremova