Что такое генеративные нейронные сети

Что такое генеративные нейронные сети

Сергей Овчаренко, руководитель группы технологий компьютерного зрения Яндекса

Как это работает

Нейронные сети можно условно разделить на две большие группы: дискриминативные и генеративные модели. Первые учатся отличать объекты друг от друга. Например, им показали тысячи размеченных фотографий кошек и собак, после чего дискриминативные модели начинают уже сами искать кошек и собак на фотографиях. Генеративные модели тоже изучают тысячи фотографий кошек и собак, но после этого они начинают описывать распределение всех изображений кошек и собак, а также создавать на его основе новые картинки.

Что было раньше

Существует множество способов генерации изображений с помощью нейронных сетей. Например, в 1985 году появилась концепция ограниченной машины Больцмана. Нейронные сети на основе этой модели генерировали лица, но полученные изображения были очень маленькими, размытыми и чёрно-белыми. В 2014-м популярным стал другой подход — генеративно-состязательные сети. Они генерировали лица, которые невозможно отличить от настоящих, раскрашивали чёрно-белые фотографии и копировали картины.

Лица, сгенерированные сетью StyleGAN. Изображение: NVIDIA Research Projects

Что происходит сейчас

У генеративно-состязательных сетей были существенные недостатки, поэтому несколько лет назад их заменила новая модель — диффузионная. Такая нейросеть учится генерировать картинки с помощью «зашумления» изображения. Например, во время обучения ей показывают фотографию кошки, добавляют на него шум, а потом просят этот шум удалить, чтобы получить чистое изображение. Когда дело доходит до генерации новой картинки, диффузионной модели показывают чистый шум, а она пытается его расшифровать и, таким образом, создаёт новое изображение.

Где это применяют

Диффузионная модель используется во всех популярных инструментах для создания картинок: Midjourney, Stable Diffusion, DALL-E и Шедеврум Яндекса. Сейчас с их помощью генерируют и реалистичные сцены, и фантастические иллюстрации, следующий шаг — реалистичные видео по описанию. Применение диффузионных моделей не ограничится креативной индустрией. Например, исследователи из IBM уже сейчас генерируют с их помощью новые материалы.

Пример генерации из Шедеврума



Report Page