Нейросеть не телепат
Оксана СилантьеваЭкономишь силы на формулировке — готовься тратить их на переделки.
Для проекта «Дайлапии» к посту про поиск куратора мне нужна была иллюстрация, где котик приглашает гостеприимно в дом. Таким отельно-гостиничным жестом «добро пожаловать».
Берем котика-референс, лениво просим:
— Отталкиваясь от этого референса, нарисуй мне картинку кота, делающего лапами жест welcome

Ошибка 1. Недостаточно чёткое задание по качеству
Написала «нарисуй картинку кота», но не уточнила — это должна быть фотореалистичная иллюстрация или стилизованный рисунок. В итоге нейросеть дала мультяшный результат, а не нужное фотокачество.
Ошибка 2. Не задан контекст жеста
Формулировка «жест welcome» не может быть истолкована однозначно. Нужно было объяснить ситуацию: кот встречает гостя и жестом указывает на дверь или комнату.
Ошибка 3. Отсутствие запретов
Не сказала, чего точно быть не должно: текста на картинке, лишних элементов. Поэтому в итоге получилась картинка с надписью.
Ошибка 4. Слабая работа с референсом
Референс (фото кота) был приложен, но не описан: какие именно черты важны — окрас, взгляд, поза, настроение. Без этого нейросеть «схватила» только общую идею «кот», а не конкретный образ.
Ошибка 5. Нет пошаговой итерации
Сначала стоило проверить позу на черновом скетче, а потом уточнить стиль, свет, качество. Ожидалось, что вся детализация будет «телепатически понята».
— Неееееет, это у тебя кот сдаётся в плен. Нужно фотокачество и жест гостеприимства, как в гостиницах встречают гостей.

— Ну ладно, не понимаешь, фиг с тобой. Давай вот такой жест сделаем.

Ошибка 6. Слишком буквальная интерпретация референса
В запросе не было чётко оговорено: «использовать этот жест, но отрисовать его именно у кота». В итоге нейросеть восприняла саму девушку как основной объект и просто воспроизвела человека вместо того, чтобы перенести позу на кота.
— Да блин, это я тебе жест показала, чтобы ты кота с таким жестом сделал

— Не надо никаких слов, блин. Я разве просила писать слова? Нет, ты не сделал жест гостеприимства. У тебя кошка нападает на зрителя. Попробуй другую позу. Сделай кота вот в такой позе:

— Нет. у кота не надо костюма, он смотрит на зрителя и жестом приглашает пройти в комнату, а не тянется ударить зрителя, как ты сделал

— Да ну тебя, гостеприимства от тебя не дождёшься, будет «здравствуй, товарищ»

Как создавать картинки в чатовых нейросетях эффективнее
Формулировать чётко и тройным слоем
Сразу задавать объект (кот бежевого окраса, фотореалистичный), действие или позу (жест приглашения пройти, как в гостинице), и ограничения (никаких людей, текста, одежды).
Использовать референсы правильно
Если референс с человеком — уточнять: «возьми только жест, перенеси его на кота». Если с котом — описывать, что важно: цвет, взгляд, настроение.
Делать итерациями
Сначала пробный эскиз (поза), потом уточнение стиля (фото или иллюстрация), и только на финале — детали.
Попросить сеть самой сформулировать промпт
Перед генерацией изображения дать задание: «Составь промпт для картинки по моему описанию». Так будет быстрее видно, что сеть поняла, где глюканула и можно поправить понимание до запуска генерации картинок.