Задание №4
Ilya KalchenkoДата-сеты
Итак, есть дата-сеты https://datasets.imdbws.com/ с фильмами, сериалами, ТВ-шоу и всем, что с ними может быть связано из IMDb и доки к ним: http://www.imdb.com/interfaces/. Твоим первым заданием будет скачать их и разобраться: дата-сеты с какими данными есть, за что отвечает каждая колонка в них, как они связаны и что можно получить имея эти данные?
Задания
Как только ты разобрался, пора бы заняться БИГ ДАТОЙ и превратить это все во что-то реально полезное:
- Найди топ-100 фильмов(да-да, именно фильмов, а не сериалов или ТВ-шоу) за все время, за последние 10 лет или даже фильмы которые были популярны в 60х годах прошлого века, заметь что фильмы с рейтингом 9,9 и со 100 голосами мы не можем считать популярными, пусть если за фильм проголосовало хотя бы 100 000 человек - он популярный.
- Лучшие фильмы нам известны, а что если ты захочешь посмотреть, ну, скажем лучший триллер всех времен и народов. Так вот нужно найти по топ-10 фильмов каждого жанра.
- А теперь усложним задачу. Нужно найти все то же самое, но только для каждого десятилетия.
- Представь, что ты собрался снимать фильм и необходимо подобрать актерский состав. Твоей задачей будет выбрать самых востребованых актеров, будем считать, что актер востребованый, если он снимался в топовых фильмах и не один раз.
- Ну и на последок, найди топ-5 фильмов по режисерам.
Цель
- BIG DATA
- инструменты и методы обработки больших объемов данных
- считывать поврежденные данные и правильно их обрабатывать
- грамотно организовать обработку данных
- научиться правильно определять порядок операций при работе с большими данными
P.S. Результаты, полученые при выполнении заданий, сохранять в CSV формате
P.P.S. Свои результаты (ссылку на репозиторий) можете оставлять в комментариях под этой статьей. Постарайтесь предусмотреть доступ к этому репозиторию или оставляйте контакты, как с вами связаться для получения доступа.