ПОСЛЕЗАВТРА
ИИ от Microsoft оживил фотографии людей

Команда разработчиков Microsoft Research Asia создала искусственный интеллект (ИИ), конвертирующий статичные изображения в реалистичные анимации. Новая ИИ-система, получившая название VASA-1, умеет генерировать анимацию поющего человека на основе неподвижной фотографии и синхронизировать движения с музыкой. В качестве примера создатели продемонстрировали несколько коротких роликов, среди которых была и мультяшная версия Моны Лизы, читающей рэп.
Для обучения новый ИИ тренировался на тысячах изображений людей с различным выражением лица. В результате генерируемые анимации людей не просто поют или читают текст, но и обладают мимикой, что придает эмоциональный оттенок происходящему. Вместе с тем разработчики признают, что при детальном анализе роликов можно выявить признаки того, что данные материалы были искусственно созданы машиной. Они также заявили, что не будут выкладывать систему в общий доступ ввиду высокого риска злоупотреблений.
На текущий момент VASA-1 производит анимации размером 512 на 512 пикселов со скоростью 45 кадров в секунду. В среднем на генерацию ролика уходит около двух минут на десктопной видеокарте уровня RTX 4090. По словам создателей, новая ИИ-система может быть использована для генерации невероятно реалистичных аватаров для игр и симуляций.