@NanoBot: Нейросети для изображений и видео

@NanoBot: Нейросети для изображений и видео

Denis Olshin

@NanoBot позволяет генерировать изображения с помощью нейросетей Midjourney, Nano Banana, GPT Image и DALL-E, а также видеозаписи с помощью нейросетей Veo 3 и Sora 2.

Команды для создания изображений указаны ниже — для генерации по тексту отправляйте их текстовыми сообщениями боту.

Чтобы дополнительно использовать существующее изображение на входе, отправьте команду в виде описания к нему. Также вы можете отправить команду в виде ответа на другое сообщение с изображением (как своё, так и чужое).

Чтобы использовать несколько изображений (например, скомбинировать, перенести стиль и т.д.), отправьте их, сгруппировав в альбом.

Midjourney

Доступно только подписчикам, начиная с уровня 700 000 токенов в месяц; генерация одного изображения стоит 700 токенов.
Вызов функции
Upscale (2x) стоит 1400 токенов; вызов Upscale (4x)4200 токенов.

Для генерации изображения с помощью Midjourney, используйте команду

!mj текст запроса
Генерирует изображение по текстовому описанию с помощью нейросети Midjourney.

Midjourney генерирует сразу 4 версии изображения; после этого доступна возможность либо увеличить каждую из 4 версий (с помощью кнопок U1-U4), либо перегенерировать вариации на основе одной из них (кнопками V1-V4). Увеличенную версию можно:
- апскейлить в более высоком разрешении (кнопки Upscale (2x) и Upscale (4x), но это стоит дороже обычной генерации, см. ниже);
- создать вариации (кнопки Vary (subtle) и Vary (strong));
- «отдалить» объект генерации (т.е. догенерировать изображение со всех сторон, кнопки Zoom Out (1.5x) и Zoom Out (2x));
- «сдвинуть» объект генерации (т.е. догенерировать изображение с противоположной стороны, кнопки ⬅️ ➡️ ⬆️⬇️).

Подробнее о составлении запросов Midjourney и его возможностях см. официальную документацию.

Nano Banana, GPT-Image и DALL-E

Стоимость генерация одного изображения моделями Nano Banana, DALL-E и GPT-Image зависит от модели, выбранного качества и разрешения изображения. Подробнее см. таблицу:
Стоимость генераций изображений различными моделями

Для генерации изображения используйте команды

!nb текст запроса
Генерирует изображение по текстовому описанию с помощью нейросети Nano Banana.

Nano Banana не принимает дополнительных параметров (размер изображения на выходе выбирает сама модель).

!dalle текст запроса
Генерирует изображение по текстовому описанию с помощью нейросети DALL-E.

!gptimage текст запроса
Генерирует изображение по текстовому описанию с помощью нейросети GPT-Image. Используется последняя версия модели (1.5 на данный момент).

Перед текстом запроса можно указать несколько параметров (через пробел, без кавычек), регулирующих генерацию. Многие из них применимы как к DALL-E, так и к GPT-Image:
"v=3": использовать модель DALL-E 3 вместо DALL-E 2 (только в команде !dalle)
"q=medium": выбор качества; модель DALL-E 3 поддерживает standard и hd, модель GPT — low, medium и high. По умолчанию используется лучшее качество.
"sz=1792x1024": разрешение изображения (в формате ширинаxвысота); модель DALL-E 2 поддерживает размеры 256x256, 512x512 и 1024x1024, модель DALL-E 3 — размеры 1024x1024, 1792x1024 и 1024x1792, модель GPT — 1024x1024, 1536x1024, 1024x1536. По умолчанию используется размер 1024x1024 (квадрат). Вместо этого параметра можно указать параметры w и h по отдельности. Также можно использовать алиасы sz=portrait или sz=landscape (или small/medium/large для DALL-E 2).
"w=1792": ширина изображения в пикселях
"h=1024": высота изображения в пикселях
"st=vivid": стиль изображения, поддерживается только моделью DALL-E 3. Возможные значения: vivid, natural.
"n=3": количество изображений, которые нужно сгенерировать за один раз, от 1 до 10 (имейте в виду, что это также кратно увеличит число потраченных токенов). Поддерживается только моделями DALL-E 2 и GPT.
"+tr": сгенерировать изображение с прозрачным фоном. Поддерживается только моделью GPT. Если не указан формат изображения (параметром f), будет выбран png.
"f=png": формат изображения. Поддерживается только моделью GPT. Возможные значения: jpeg, png, webp.
"c=80": степень сжатия изображения, число от 0 до 100. Поддерживается только моделью GPT. По умолчанию 100.

Veo

Модель Veo позволяет генерировать короткие видео (в версии 3 — со звуком). Поддерживаются три версии модели:

  • v=2, стоимость генерации: 50000 токенов за секунду (т.е. 8 секунд стоят 400 тысяч токенов);
  • v=3, стоимость генерации: 75000 токенов/секунду за видео со звуком (600 тысяч токенов за видео), или 50000 токенов/секунду за видео без звука;
  • v=3f (более быстрая и дешёвая генерация, но меньшего качества): 40000 токенов/секунду за видео со звуком (320 тысяч токенов за видео), или 25000 токенов/секунду за видео без звука.

Для генерации видеозаписи используйте команду

!veo текст запроса
Генерирует видеозапись по текстовому описанию с помощью нейросети Veo.

Также возможно сгенерировать видео по начальному кадру. Для этого отправьте команду !veo в качестве описания к изображению, либо в ответе на другое сообщение с изображением (текст запроса в данном случае опционален). Аналогичным образом можно использовать видео, чтобы сгенерировать продолжение к нему. В данный момент это поддерживает только Veo 2.

Поддерживаются следующие параметры:
"v=3f": версия модели (см. выше). Возможные значения: 2, 3, 3f. По умолчанию используется версия 3.
"-a": сгенерировать видео без звука. Актуально только для версий 3/3f (версия 2 в любом случае генерирует видео без звука).
"sz=portrait": сгенерировать вертикальное видео (с соотношением сторон 16:9). Поддерживается только версией 2. Возможные значения: portrait, landscape. По умолчанию генерируются горизонтальные видео.
"d=5": указать длительность видео в секундах (от 5 до 8). Поддерживается только версией 2, версии 3/3f всегда генерируют видео длительностью 8 секунд.
"-ep": отключить улучшение промпта с помощью Gemini. По умолчанию указанный запрос предварительно улучшается нейросетью Gemini.

Также после запроса можно указать "негативный промпт", отделив его символами " -:" (пробел, дефис и двоеточие, без кавычек):
!veo A neon hologram of a car driving at top speed, speed of light, cinematic, incredible details, volumetric lighting -:people, animals

Это позволит избежать появления указанных объектов в кадре.

Sora 2

Модель Sora 2 позволяет генерировать видео длительностью 4, 8 или 12 секунд со звуком. Доступны три варианта модели:

  • по умолчанию используется базовая версия, разрешение 1280×720 либо 720×1280, стоимость генерации: 10000 токенов за секунду;
  • v=pro, версия более высокого качества, разрешение 1280×720 либо 720×1280, стоимость: 30000 токенов/секунду;
  • v=hd, тоже pro версия модели, но в более высоком разрешении (1792×1024 или 1024×1792), стоимость: 50000 токенов/секунду.

Для генерации видеозаписи используйте команду

!sora текст запроса
Генерирует видеозапись по текстовому описанию с помощью нейросети Sora.

Также возможно сгенерировать видео по начальному кадру. Для этого отправьте команду !sora в качестве описания к изображению, либо в ответе на другое сообщение с изображением (текст запроса в данном случае опционален). Аналогичным образом можно использовать видео, чтобы сгенерировать продолжение к нему.

Поддерживаются следующие параметры:
"v=pro": версия модели (см. выше). Возможные значения: pro или hd. По умолчанию используется базовая версия.
"sz=portrait": сгенерировать вертикальное видео (с соотношением сторон 16:9). Возможные значения: portrait, landscape. По умолчанию генерируются горизонтальные видео.
"d=8": указать длительность видео в секундах (4, 8 или 12). По умолчанию генерируется видео длительностью 4 секунды.

Report Page