Исследуем данные о моих учениках

Исследуем данные о моих учениках


За время ведения блога у меня накопилась своя база данных учеников. В этой статье приведу конкретный пример работы аналитика - пошагово разберу, как проанализировать такие данные с помощью GPT, вообще не зная языков программирования и аналитики, построить красивые графики и сделать выводы.

В конце мы построим вот такой график. И вы увидите, что с этим справится даже 15-летний:

Анализировать будем полностью реальные данные, изменены только имена. Также в конце будут все материалы, чтобы вы уже сейчас смогли повторить то же самое и даже исследовать другие вопросы.


Я веду базу в Notion и экспортировал ее в виде csv файла:


Итак, у нас есть таблица такого вида в csv формате. Для каждого ученика указан его город, дата начала обучения и другие данные.

Такие задачи удобнее всего делать в питоне. Для этого открываем Юпитер ноутбук - это удобная среда, где можно писать код.

Для работы с таблицами в питоне используется библиотека pandas. Но допустим, мы про это не знаем. Можно спросить GPT - он подскажет.

Пишем код, загружаем файл:

Отлично, теперь мы видим таблицу.


Города клиентов

Давайте попробуем разобраться в данных. Например, какие значения принимает поле Город, какое распределение клиентов по городам?


Я скидываю ему скрин таблицы и говорю построить график.

Сначала он пишет код чтобы заново создать полным перечислением ту таблицу, что я ему скинул. Но она у меня уже загружена в питон. И потом ту часть кода, которая мне нужна:

Интересные данные. Я знал, что у меня большинство учеников из Москвы, но не думал что прям 44%. Также видно что из многих городов по 4%, видимо это по 1 человеку. И из Уфы неожиданно много.


Следующий интересный вопрос - количество записей на курс по месяцам. В какие месяцы были пики, когда записывалось много, когда мало, есть ли какой-то рост со временем? Пишу запрос в GPT, снова скидывая скрин таблицы, как пример данных:


Он снова начинает создавать вручную такую же таблицу. Это пропускаем. Берем дальнейшую часть кода, все что идет после определения датафрейма (таблицы) data.

Копируем и вставляем:


Ого, он даже смог автоматически преобразовать даты формата December 1, 2022. В таком формате они скачались у меня из Notion, и я думал, что придется как-то хитрее расшифровывать.

Тут видно, что у меня было максимум по 4 новых ученика в месяц, при этом больше всего в январе, феврале и мае.


На каких этапах сейчас ученики

Теперь, допустим, мы хотим лучше понять этот график. На каком этапе сейчас ученики? Они устроились на работу или нет?

Пишу в GPT, дословно:

Теперь построй такой же график со столбками но с разбиением каждого по полю Этап, разным цветом

Просто беру код в его ответе и вставляю.

График строится в библиотеке matplotlib в питоне. Но опять же, мне даже не пришлось ее знать, чтобы построить график выше. Например что

plt.ylabel('Количество новых учеников') - значит создать название оси у с указанным текстом

И прочие детали. Но достаточно минимального понимания, и можно писать код в GPT. Он не всегда отвечает сразу правильно, но если возникнет ошибка, можно переслать ее ему и попросить исправить. И потом, конечно, надо на всякий случай проверить данные.


Какие выводы можно сделать по графику?

Из тех, кто записался в июле, большинство (2 из 3) прошли курс, то есть устроились на работу и прошли испытательный срок. Из тех кто записался в июле 2024 все еще на первом этапе - SQL, так как просто не было времени.


Зарплата

Посмотрим теперь, на какие зарплаты устроились ученики. На первых 5 строках таблицы мы видели, что это поле не заполнено:

Но с помощью кода data[data['Зарплата'].notnull()] можно вывести строки, в которых это поле не пустое:

Теперь мы можем как-то визуализировать данные. Построим график средней зарплаты по месяцу начала обучения. Опять же закидываем в GPT скрин таблицы, говорим "Построй график средней зарплаты по месяцу начала обучения".

Получаем готовый график:

Какие выводы можно сделать из данных? В целом их пока мало, чтобы анализировать. Пики в декабре 2023 и январе вызваны двумя удачными офферами, которые получили ученики, начавшие обучение в эти месяцы.


Это краткий пример анализа данных. Примерно такие задачи будут и на работе. Есть еще много деталей - например, надо проверять корректность данных, отсутствие пропусков в них.

Материалы, на которых вы можете повторить все самостоятельно и поисследовать другие вопросы:

  1. Установка Юпитер ноутбука:

https://www.youtube.com/watch?v=VIaur9G-0tc

2. Скрипт на питоне и таблица учеников https://disk.yandex.ru/d/PxXbXL6UUSoL9A


Мой курс аналитики - https://telegra.ph/Kurs-Analitik-dannyh-ot-Timura-05-15

Аналитика от Тимура - https://t.me/timuranalytics

Report Page