Data science: данные по науке, или как найти годную музыку вместе с лекарством от старения
Григорий МастридерМоя любимая группа – Radiohead. Ещё регулярно слушаю The Cure, The Smiths, Sonic Youth, Joy Division, Portishead, Interpol, Ghinzu и другую меланхоличную гитарную (и не только) музыку. Алгоритмы стримингового сервиса, изучив мои предпочтения, выносят вердикт: кажется, ему понравится альбом Sea of Worry группы Have a Nice Life. Так и вышло.
Сегодня я ездил на нашу студию «Фабума Рекордс» на такси. Искусственный интеллект заранее рассчитал время прибытия и ошибся всего на пару минут, хотя я давно отношусь к этому, как к самому собой разумеющемуся явлению (а если ошибка больше, чем 2 минуты, начинаю внутренне возмущаться).
Всё это – примеры применения Data Science в нашей жизни. Мы редко думаем о том, как всё это работает, и привыкли к сервисам, упрощающим нам жизнь. Хотя, если задуматься, это самые настоящие чудеса! Впрочем, как писал Артур Кларк, «любая достаточно развитая технология неотличима от магии».
В основе всех сервисов по прогнозированию, «умному» подбору контента и рекомендаций лежит машинное обучение. Модели машинного обучения находят в «больших данных» закономерности и учатся предсказывать, какое состояние примет объект (погода, трафик на дорогах и т.д.) при изменении внешних условий. Самое интересное, что в итоге модели машинного обучения находят даже такие закономерности, о которых люди не догадывались.
Какие задачи решает Machine Learning и Data Science?
Основную цель машинного обучения ёмко суммировал недавний гость «Терминального чтива» Вастрик:
«Цель машинного обучения — предсказать результат по входным данным. Чем разнообразнее входные данные, тем проще машине найти закономерности и тем точнее результат»
Для бизнеса машинное обучение и нейронные сети могут решать самые разные задачи, например:
– прогнозирование (объёмов спроса, продаж, загрузки ресурсов предприятия)
– продвинутая аналитика (анализ клиентов, конкурентов и их поведения, выявление скрытых корреляций и причинно-следственных связей разных показателей бизнеса, поиск трендов и др.)
– распознавание (голоса, фото, видео и т. д. – даже мошенничество можно предотвращать с помощью анализа big data)
– и многое другое.
Что нужно для машинного обучения?
Три вещи. Во-первых, качественные данные. Во-вторых, обученная модель. В-третьих, IT-инфраструктура.
Модели обучаются на данных – больших объемах информации, которую нужно где-то хранить и обрабатывать. Недостаток данных и вычислительных мощностей может стать очень серьезным барьером для обучения моделей. Так что здесь не обойтись без мощной IT-инфраструктуры.
И здесь очень кстати могут оказаться услуги моего постоянного партнёра Selectel – одного из лидеров российского IT-рынка, который предоставляет инфраструктуру для многих компаний: от крупнейших корпораций до небольших стартапов. Набор доступных в Selectel инфраструктурных решений для Data Science включает специализированный облачный сервер (Data Science Virtual Machine), контейнер (Data Science Docker Container) и выделенные серверы с GPU.
Из прошлых выпусков нашей совместной рубрики c Selectel можно было понять, что содержание собственного сервера (или нескольких) — дорогая и трудозатратная история. А мощностей рядового домашнего компьютера может не хватить, чтобы обучить модель.
Поэтому чаще всего самое оптимальное решение – специализированные облачные серверы Data Science Virtual Machine (DSVM). В таких серверах «из коробки» собраны самые нужные инструменты и библиотеки для специалистов по Data Science, их не нужно устанавливать и настраивать отдельно.
Облачный сервер можно развернуть из уже готового образа. Пара кликов в панели управления — и сервер с предустановленным набором инструментов готов к работе. Можно приступить к выполнению задач машинного обучения сразу после создания.
Другие решения для Data Science — контейнер с необходимым набором библиотек и выделенный сервер с мощными GPU. Data Science Docker Container от Selectel, кстати, можно развернуть совершенно бесплатно на собственном компьютере. Некоторым ML-проектам будут полезны выделенные серверы с Tesla A100 — последним поколением GPU от Nvidia.
В Selectel любой проект по Data Science сможет подобрать оптимальную IT-инфраструктуру под свои задачи.
Промокод MUST дает 1000 бонусных рублей на создание облачного сервера для Data Science: https://slc.tl/4Swew