Зомбоящик опасен для вашего (искусственного) интеллекта
Системный БлокъСовременные алгоритмы машинного обучения хорошо справляются с прохождением компьютерных игр. Обычно это делается при помощи «обучения с подкреплением»: система штрафуется за вредные действия (потеря очков/жизней) и награждается за полезные (сбор кристаллов/убийство врагов).
Однако на этот раз исследователи решили отказаться от таких явных стимулов. Команда из Open AI, Университета Беркли и Университета Эдинбурга обучила алгоритм проходить игры на одном только «любопытстве».
Как это работает?
Алгоритм играет в Марио, Space Invaders, Pong (пинг-понг для игровых автоматов от Atari) и прочие классические аркады/платформеры, а также проходит 3D-бродилки. При этом программа ничего не знает о том, насколько успешно она проходит игру. «Любопытство», которое заставляет алгоритм двигаться дальше, — это просто мера ошибки предсказания дальнейших событий. Проще говоря, в игре поощряются действия, приводящие к неожиданному результату.
И что получилось?
Система самостоятельно прошла 10 уровней в Марио, обучилась находить спрятанные объекты в лабиринте, а также отлично играла в пинг-понг не только с компьютером, но и с собственной копией. 3D-модель шагающего робота, снабженная только любопытством, начала ходить без всякого стимула ̶и̶ ̶б̶е̶з̶ ̶к̶а̶р̶т̶и̶н̶о̶к̶-̶м̶о̶т̶и̶в̶а̶т̶о̶р̶о̶в̶!̶ ̶А̶ ̶т̶ы̶ ̶т̶а̶к̶ ̶и̶ ̶н̶е̶ ̶з̶а̶п̶и̶с̶а̶л̶с̶я̶ ̶в̶ ̶к̶а̶ч̶а̶л̶к̶у̶!̶
Круто, а при чем тут зомбоящик из заголовка?
В одном из лабиринтов исследователи повесили на стене телевизор. Он транслировал постоянно меняющиеся картинки, случайно переключая каналы в ответ на действия алгоритма. В итоге любопытная нейросеть зависала около телевизора и начинала его смотреть. «Внимание» алгоритма оказывалось полностью поглощено просмотром…
Источник: Large-Scale Study of Curiosity-Driven Learning
Читайте «Системный Блокъ» — ваше личное «Черное зеркало» в мире Big Data.