Задание №4

Задание №4

Ilya Kalchenko

Дата-сеты

Итак, есть дата-сеты https://datasets.imdbws.com/  с фильмами, сериалами, ТВ-шоу и всем, что с ними может быть связано из IMDb и доки к ним: http://www.imdb.com/interfaces/. Твоим первым заданием будет скачать их и разобраться: дата-сеты с какими данными есть, за что отвечает каждая колонка в них, как они связаны и что можно получить имея эти данные?

Задания

Как только ты разобрался, пора бы заняться БИГ ДАТОЙ и превратить это все во что-то реально полезное:

  1. Найди топ-100 фильмов(да-да, именно фильмов, а не сериалов или ТВ-шоу) за все время, за последние 10 лет или даже фильмы которые были популярны в 60х годах прошлого века, заметь что фильмы с рейтингом 9,9 и со 100 голосами мы не можем считать популярными, пусть если за фильм проголосовало хотя бы 100 000 человек - он популярный.
  2. Лучшие фильмы нам известны, а что если ты захочешь посмотреть, ну, скажем лучший триллер всех времен и народов. Так вот нужно найти по топ-10 фильмов каждого жанра.
  3. А теперь усложним задачу. Нужно найти все то же самое, но только для каждого десятилетия.
  4. Представь, что ты собрался снимать фильм и необходимо подобрать актерский состав. Твоей задачей будет выбрать самых востребованых актеров, будем считать, что актер востребованый, если он снимался в топовых фильмах и не один раз.
  5. Ну и на последок, найди топ-5 фильмов по режисерам.

Цель

  • BIG DATA
  • инструменты и методы обработки больших объемов данных
  • считывать поврежденные данные и правильно их обрабатывать
  • грамотно организовать обработку данных
  • научиться правильно определять порядок операций при работе с большими данными

P.S. Результаты, полученые при выполнении заданий, сохранять в CSV формате

P.P.S. Свои результаты (ссылку на репозиторий) можете оставлять в комментариях под этой статьей. Постарайтесь предусмотреть доступ к этому репозиторию или оставляйте контакты, как с вами связаться для получения доступа.