Исследуем данные о моих учениках
За время ведения блога у меня накопилась своя база данных учеников. В этой статье приведу конкретный пример работы аналитика - пошагово разберу, как проанализировать такие данные с помощью GPT, вообще не зная языков программирования и аналитики, построить красивые графики и сделать выводы.
В конце мы построим вот такой график. И вы увидите, что с этим справится даже 15-летний:

Анализировать будем полностью реальные данные, изменены только имена. Также в конце будут все материалы, чтобы вы уже сейчас смогли повторить то же самое и даже исследовать другие вопросы.
Я веду базу в Notion и экспортировал ее в виде csv файла:

Итак, у нас есть таблица такого вида в csv формате. Для каждого ученика указан его город, дата начала обучения и другие данные.
Такие задачи удобнее всего делать в питоне. Для этого открываем Юпитер ноутбук - это удобная среда, где можно писать код.
Для работы с таблицами в питоне используется библиотека pandas. Но допустим, мы про это не знаем. Можно спросить GPT - он подскажет.

Пишем код, загружаем файл:

Отлично, теперь мы видим таблицу.
Города клиентов
Давайте попробуем разобраться в данных. Например, какие значения принимает поле Город, какое распределение клиентов по городам?
Я скидываю ему скрин таблицы и говорю построить график.


Сначала он пишет код чтобы заново создать полным перечислением ту таблицу, что я ему скинул. Но она у меня уже загружена в питон. И потом ту часть кода, которая мне нужна:

Интересные данные. Я знал, что у меня большинство учеников из Москвы, но не думал что прям 44%. Также видно что из многих городов по 4%, видимо это по 1 человеку. И из Уфы неожиданно много.
Следующий интересный вопрос - количество записей на курс по месяцам. В какие месяцы были пики, когда записывалось много, когда мало, есть ли какой-то рост со временем? Пишу запрос в GPT, снова скидывая скрин таблицы, как пример данных:

Он снова начинает создавать вручную такую же таблицу. Это пропускаем. Берем дальнейшую часть кода, все что идет после определения датафрейма (таблицы) data.
Копируем и вставляем:

Ого, он даже смог автоматически преобразовать даты формата December 1, 2022. В таком формате они скачались у меня из Notion, и я думал, что придется как-то хитрее расшифровывать.
Тут видно, что у меня было максимум по 4 новых ученика в месяц, при этом больше всего в январе, феврале и мае.
На каких этапах сейчас ученики
Теперь, допустим, мы хотим лучше понять этот график. На каком этапе сейчас ученики? Они устроились на работу или нет?
Пишу в GPT, дословно:
Теперь построй такой же график со столбками но с разбиением каждого по полю Этап, разным цветом
Просто беру код в его ответе и вставляю.

График строится в библиотеке matplotlib в питоне. Но опять же, мне даже не пришлось ее знать, чтобы построить график выше. Например что
plt.ylabel('Количество новых учеников') - значит создать название оси у с указанным текстом
И прочие детали. Но достаточно минимального понимания, и можно писать код в GPT. Он не всегда отвечает сразу правильно, но если возникнет ошибка, можно переслать ее ему и попросить исправить. И потом, конечно, надо на всякий случай проверить данные.
Какие выводы можно сделать по графику?
Из тех, кто записался в июле, большинство (2 из 3) прошли курс, то есть устроились на работу и прошли испытательный срок. Из тех кто записался в июле 2024 все еще на первом этапе - SQL, так как просто не было времени.
Зарплата
Посмотрим теперь, на какие зарплаты устроились ученики. На первых 5 строках таблицы мы видели, что это поле не заполнено:
Но с помощью кода data[data['Зарплата'].notnull()] можно вывести строки, в которых это поле не пустое:

Теперь мы можем как-то визуализировать данные. Построим график средней зарплаты по месяцу начала обучения. Опять же закидываем в GPT скрин таблицы, говорим "Построй график средней зарплаты по месяцу начала обучения".
Получаем готовый график:

Какие выводы можно сделать из данных? В целом их пока мало, чтобы анализировать. Пики в декабре 2023 и январе вызваны двумя удачными офферами, которые получили ученики, начавшие обучение в эти месяцы.
Это краткий пример анализа данных. Примерно такие задачи будут и на работе. Есть еще много деталей - например, надо проверять корректность данных, отсутствие пропусков в них.
Материалы, на которых вы можете повторить все самостоятельно и поисследовать другие вопросы:
- Установка Юпитер ноутбука:
https://www.youtube.com/watch?v=VIaur9G-0tc
2. Скрипт на питоне и таблица учеников https://disk.yandex.ru/d/PxXbXL6UUSoL9A
Мой курс аналитики - https://telegra.ph/Kurs-Analitik-dannyh-ot-Timura-05-15
Аналитика от Тимура - https://t.me/timuranalytics