@NanoBot: Нейросети для изображений

@NanoBot: Нейросети для изображений

Denis Olshin

С помощью @NanoBot можно генерировать изображения с помощью нескольких нейросетей: Midjourney, DALL-E и Stable Diffusion.

Midjourney

Доступно только подписчикам уровня Pro; генерация одного изображения стоит 700 токенов.
Вызов функции
Upscale (2x) стоит 1400 токенов (в статистике расхода токенов отображается как 2 изображения); вызов Upscale (4x)4200 токенов (отображается как 6 изображений).

Для генерации изображения с помощью Midjourney, используйте команду

!mj текст запроса

Генерирует изображение по текстовому описанию с помощью нейросети Midjourney. Также команду можно использовать, отправив её в качестве описания одно или нескольких изображений (они должны быть объединены в альбом) — в этом случае изображения будут использованы в качестве основы для генерации.
Midjourney генерирует сразу 4 версии изображения; после этого доступна возможность либо увеличить каждую из 4 версий (с помощью кнопок U1-U4), либо перегенерировать вариации на основе одной из них (кнопками V1-V4). Увеличенную версию можно:
- апскейлить в более высоком разрешении (кнопки Upscale (2x) и Upscale (4x), но это стоит дороже обычной генерации, см. ниже);
- создать вариации (кнопки Vary (subtle) и Vary (strong));
- «отдалить» объект генерации (т.е. догенерировать изображение со всех сторон, кнопки Zoom Out (1.5x) и Zoom Out (2x));
- «сдвинуть» объект генерации (т.е. догенерировать изображение с противоположной стороны, кнопки ⬅️ ➡️ ⬆️⬇️).

Подробнее о составлении запросов Midjourney и его возможностях см. официальную документацию.

DALL-E

Генерация одного изображения моделью DALL-E 2 стоит 700 токенов, моделью DALL-E 3 — 1400 токенов (в статистике расхода токенов отображается как 2 изображения).

Для генерации изображения с помощью DALL-E используйте команду

!dalle текст запроса

Генерирует изображение по текстовому описанию с помощью нейросети DALL-E.
Перед текстом запроса можно указать несколько параметров (через пробел, без кавычек), регулирующих генерацию
"v=3": использовать модель DALL-E 3 вместо DALL-E 2
"+hd": высокое качество, поддерживается только моделью DALL-E 3 (булевый флаг; не требует значения после знака "=")
"sz=1792x1024": разрешение изображения (в формате ширинаxвысота); модель DALL-E 2 поддерживает размеры 256x256, 512x512 и 1024x1024, модель DALL-E 3 — размеры 1024x1024, 1792x1024 и 1024x1792. По умолчанию используется размер 1024x1024 (квадрат). Вместо этого параметра можно указать параметры w и h по отдельности.
"w=1792": ширина изображения в пикселях
"h=1024": высота изображения в пикселях
"st=vivid": стиль изображения, поддерживается только моделью DALL-E 3. Возможные значения: vivid, natural.
"n=3": количество изображений, которые нужно сгенерировать за один раз, от 1 до 10 (имейте в виду, что это также кратно увеличит число потраченных токенов). Поддерживается только моделью DALL-E 2.

Stable Diffusion

Доступно только подписчикам уровня Pro; сама генерация изображений бесплатна, то есть не тратит токены.

Для генерации изображения с помощью Stable Diffusion используйте команду

!sd текст запроса (требует подписки)

Генерирует изображение по текстовому описанию с помощью нейросети Stable Diffusion. В качестве описания сгенерированного изображения будет отправлено значение использованного зерна (seed), которое можно использовать для повторной генерации.
Негативный запрос можно дописать после обычного, отделив его символами
" -:" (пробел, затем минус и двоеточие). В самом запросе поддерживается та же разметка, что и в репозитории AUTOMATIC1111: например, взятие части запроса в круглые скобки повышает его вес; в квадратные — понижает (Attention/emphasis; см. также разделы Prompt Editing, Alternating Words и Composable Diffusion).
Перед текстом запроса можно указать несколько параметров (через пробел, без кавычек), регулирующих генерацию:
"w=1024": width
"h=1024": height
"m=deliberate": model; доступные названия моделей: zrpg, zrpgvae, yuki, absreal, revanim, dreamshp, darksushi, cetus, gameicon, flat2d, lyriel, epicreal, pastel, toonyou, meina, majic, uberreal, deliberate, reliberate (по умолчанию используется revanim), описание моделей можно найти на сайте CivitAI.com, подробное сравнение — тут

"sd=123": seed
"ssd=456": subseed (aka "Variation seed")
"sss=0.5": subseed_strength (aka "Variation strength")
"st=50": steps
"cs=5": cfg_scale
"sn=Euler": sampler_name; доступные названия сэмплеров: Euler_a, Euler, LMS, Heun, DPM2, DPM2_a, DPM++_2S_a, DPM++_2M, DPM++_SDE, DPM++_2M_SDE, DPM_fast, DPM_adaptive, LMS_Karras, DPM2_Karras, DPM2_a_Karras, DPM++_2S_a_Karras, DPM++_2M_Karras, DPM++_SDE_Karras, DPM++_2M_SDE_Karras, DDIM, PLMS, UniPC (по умолчанию используется DPM++_2M_Karras)
"ds=0.5": denoising_strength
"ups=2": upscale
"upn=ESRGAN_4x": upscaler_name; доступные названия апскейлеров: None, Lanczos, Nearest, ESRGAN_4x, LDSR, R-ESRGAN_4x+, R-ESRGAN_4x+_Anime6B, ScuNET_GAN, ScuNET_PSNR, Swin2SR_RealworldSR_X4_64_BSRGAN_PSNR.v2 (по умолчанию используется ESRGAN_4x)
"+rsfc": restore_faces (булевый флаг; не требует значения после знака "=")
"rsfm=GFPGAN": face_restoration_model; следует использовать вместе с +rsfc; доступные модели восстановления лиц: CodeFormer, GFPGAN (по умолчанию используется CodeFormer)
"+hrfx": enable_hr (aka Hires fix; булевый флаг; не требует значения после знака "=")
"+tile": tiling (булевый флаг; не требует значения после знака "=")
"ensd=12345": eta_noise_seed_delta
"cskp=2": CLIP_stop_at_last_layers (aka Clip skip)
Подробнее об этих параметрах см. документацию AUTOMATIC1111

Report Page