Data science: данные по науке, или как найти годную музыку вместе с лекарством от старения

Data science: данные по науке, или как найти годную музыку вместе с лекарством от старения

Григорий Мастридер

Моя любимая группа – Radiohead. Ещё регулярно слушаю The Cure, The Smiths, Sonic Youth, Joy Division, Portishead, Interpol, Ghinzu и другую меланхоличную гитарную (и не только) музыку. Алгоритмы стримингового сервиса, изучив мои предпочтения, выносят вердикт: кажется, ему понравится альбом Sea of Worry группы Have a Nice Life. Так и вышло.

Have a Nice Life - Science Beat

Сегодня я ездил на нашу студию «Фабума Рекордс» на такси. Искусственный интеллект заранее рассчитал время прибытия и ошибся всего на пару минут, хотя я давно отношусь к этому, как к самому собой разумеющемуся явлению (а если ошибка больше, чем 2 минуты, начинаю внутренне возмущаться).

Всё это – примеры применения Data Science в нашей жизни. Мы редко думаем о том, как всё это работает, и привыкли к сервисам, упрощающим нам жизнь. Хотя, если задуматься, это самые настоящие чудеса! Впрочем, как писал Артур Кларк, «любая достаточно развитая технология неотличима от магии».

В основе всех сервисов по прогнозированию, «умному» подбору контента и рекомендаций лежит машинное обучение. Модели машинного обучения находят в «больших данных» закономерности и учатся предсказывать, какое состояние примет объект (погода, трафик на дорогах и т.д.) при изменении внешних условий. Самое интересное, что в итоге модели машинного обучения находят даже такие закономерности, о которых люди не догадывались.

Английский фантаст Артур Кларк

Какие задачи решает Machine Learning и Data Science?

Основную цель машинного обучения ёмко суммировал недавний гость «Терминального чтива» Вастрик:

«Цель машинного обучения — предсказать результат по входным данным. Чем разнообразнее входные данные, тем проще машине найти закономерности и тем точнее результат»

Источник

Вастрик. Берлин, умный дом, карьера в IT. Терминальное чтиво 12x05

Для бизнеса машинное обучение и нейронные сети могут решать самые разные задачи, например:

– прогнозирование (объёмов спроса, продаж, загрузки ресурсов предприятия)

– продвинутая аналитика (анализ клиентов, конкурентов и их поведения, выявление скрытых корреляций и причинно-следственных связей разных показателей бизнеса, поиск трендов и др.)

– распознавание (голоса, фото, видео и т. д. – даже мошенничество можно предотвращать с помощью анализа big data)

– и многое другое.

Что нужно для машинного обучения?

Три вещи. Во-первых, качественные данные. Во-вторых, обученная модель. В-третьих, IT-инфраструктура.

Модели обучаются на данных – больших объемах информации, которую нужно где-то хранить и обрабатывать. Недостаток данных и вычислительных мощностей может стать очень серьезным барьером для обучения моделей. Так что здесь не обойтись без мощной IT-инфраструктуры.

И здесь очень кстати могут оказаться услуги моего постоянного партнёра Selectel – одного из лидеров российского IT-рынка, который предоставляет инфраструктуру для многих компаний: от крупнейших корпораций до небольших стартапов. Набор доступных в Selectel инфраструктурных решений для Data Science включает специализированный облачный сервер (Data Science Virtual Machine), контейнер (Data Science Docker Container) и выделенные серверы с GPU. 

Selectel

Из прошлых выпусков нашей совместной рубрики c Selectel можно было понять, что содержание собственного сервера (или нескольких) — дорогая и трудозатратная история. А мощностей рядового домашнего компьютера может не хватить, чтобы обучить модель. 

Поэтому чаще всего самое оптимальное решение – специализированные облачные серверы Data Science Virtual Machine (DSVM). В таких серверах «‎из коробки» собраны самые нужные инструменты и библиотеки для специалистов по Data Science, их не нужно устанавливать и настраивать отдельно. 

Облачный сервер можно развернуть из уже готового образа. Пара кликов в панели управления — и сервер с предустановленным набором инструментов готов к работе. Можно приступить к выполнению задач машинного обучения сразу после создания.

Другие решения для Data Science — контейнер с необходимым набором библиотек и выделенный сервер с мощными GPU. Data Science Docker Container от Selectel, кстати, можно развернуть совершенно бесплатно на собственном компьютере. Некоторым ML-проектам будут полезны выделенные серверы с Tesla A100 — последним поколением GPU от Nvidia. 

В Selectel любой проект по Data Science сможет подобрать оптимальную IT-инфраструктуру под свои задачи. 

Промокод MUST дает 1000 бонусных рублей на создание облачного сервера для Data Science: https://slc.tl/4Swew



Report Page