Нейросети. Применение в архитектуре и градостроительстве
Искусственный интеллект стал мощным инструментом для работы и экспериментов. Несмотря на страхи о его влиянии на рынок труда, сегодня ИИ выступает в роли скорее помощника, чем конкурента.
Андрей Киселёв, архитектор, дизайнер, руководитель студии диджитал продакшена SINTEZ.SPACE, руководитель экспериментальной проектной лаборатории Президентской академии ИОН РАНХиГС, и Сергей Дубровский, социолог, эксперт в области внедрения нейросетевых решений в исследовательскую деятельность, собрали любопытный инструментарий, который поможет специалистам самого широкого спектра. Ведь понимание трендов и тенденций определяет многое в последующей профессиональной жизни.
В этой статье показаны различные ИИ-инструменты, их цели и задачи. Вы найдете оригинальные решения, которые пригодятся как в работе, так и в повседневной жизни. Здесь есть не только известные, но и, возможно, новые и неожиданные инструменты.
LM Studio и Ollama: локальные языковые модели для профессионалов
LM Studio и Ollama — платформы, позволяющие запускать локальные большие языковые модели (LLM) от команд Vikhr и IlyaGusev. Эти модели поддерживают русский язык и функционируют без подключения к интернету, обеспечивая конфиденциальность данных. Их интеграция в систему позволяет анализировать документы, таблицы и другие данные непосредственно на рабочем месте, что особенно важно при работе с чувствительной информацией.
ChatGPT, Gemini и Claude: генерация контента и работа с документами
ChatGPT, Gemini и Claude — мощные глобальные инструменты для создания текстов, отчетов и анализа больших объемов информации. Они способны генерировать оригинальные идеи, помогать в освоении сложных тем и автоматизировать рутинные задачи, повышая продуктивность специалистов.
Stable Diffusion и ControlNet: визуализация архитектурных концепций
Stable Diffusion — нейросеть, создающая фотореалистичные изображения и 3D-модели на основе текстовых описаний. Для повышения контроля над процессом генерации используется ControlNet — нейросетевая структура, позволяющая управлять моделями диффузии посредством добавления дополнительных условий, таких как карты глубины, контуры и позы. Это обеспечивает более точную визуализацию архитектурных проектов и анализ различных стилей.
Flux: передовая генерация изображений
Flux — текстово-изобразительная модель, разработанная Black Forest Labs. Она генерирует изображения на основе текстовых описаний, обеспечивая высокое качество и детализацию. Flux поддерживает различные стили и позволяет создавать визуализации архитектурных концепций, учитывая культурные и эмоциональные аспекты.
Whisper и Faster Whisper: преобразование речи в текст
Whisper от OpenAI — мощная модель для преобразования речи в текст, требующая значительных вычислительных ресурсов. Faster Whisper от SYSTRAN оптимизирован для работы на менее мощном оборудовании и является кроссплатформенным решением. Существуют дообученные модели на русском языке, обеспечивающие высокое качество расшифровки аудио и видео.
Runway ML, KLING, PIKA: работа с видео и анимацией
Runway ML, KLING, PIKA — эти нейросети предоставляют инструменты для создания анимаций и улучшения видеопрезентаций, позволяя демонстрировать динамику развития городских пространств и даже создавать обучающие видеоматериалы. Но тут лучше посмотреть и попробовать самостоятельно.
GitHub Copilot: автоматизация программирования
GitHub Copilot помогает в написании кода и разработке алгоритмов, упрощая работу с данными и моделями. Он может создавать скрипты для анализа и моделирования, а также обучать сотрудников программированию, способствуя автоматизации процессов в градостроительстве. Например, с помощью подобных инструментов можно дописывать недостающие модули для программ, таких как Blender, QGIS, 3D Max, Revit и других
Работа с иностранными источниками: DeepL и Яндекс.Переводчик
При работе с иностранными источниками информации важно использовать качественные инструменты перевода. DeepL и обновленный Яндекс.Переводчик применяют нейросетевые технологии, позволяющие учитывать контекст и обеспечивать более точный и естественный перевод. Это особенно полезно при анализе зарубежных исследований, нормативных документов и передового опыта в области градостроительства.
Интеграция этих инструментов в профессиональную деятельность позволяет специалистам в области градостроительства повышать точность, эффективность и инновационность проектов, открывая новые возможности для креативных решений.
Hugging Face: платформа для отслеживания актуальной информации в области LLM
Hugging Face — ведущая платформа, предоставляющая доступ к широкому спектру моделей ИИ, включая большие языковые модели (LLM). Платформа предлагает инструменты для поиска, сравнения и внедрения моделей в профессиональную деятельность. С помощью Hugging Face специалисты могут отслеживать последние достижения в области ИИ, получать доступ к обученным моделям и интегрировать их в свои проекты, повышая эффективность и инновационность решений.
Civitai: для тех, кто ищет больше
Civitai — тут огромное количество библиотек, чекпойнтов, моделей, лор (lora) и эмбеддингов (embedding), которые вы можете находить, комбинировать и тестировать на собственных локальных несетевых нейронках. Важно подчеркнуть, что на Civitai собраны модели именно для графических моделей (StableDiffusion и Flux), модели для языковых нейронок на данном ресурсе не представлены.
ГигаЧат и Кандинский от Сбера
Стоит отметить, что существуют и крепкие отечественные решения. ГигаЧат — это мощная российская нейросеть от Сбера, способная отвечать на вопросы, помогать в решении задач, создавать тексты и даже генерировать изображения в одном интерфейсе.
Кандинский — графическая модель от Сбера, которая генерирует изображения по описанию. Вместе они показывают очень неплохие результаты и являются отличным полигоном для начала взаимодействия с нейросетями. Кроме того, обе нейронки доступны в РФ, работают без дополнительных сложностей.
Шедеврум от Яндекса
Шедеврум — Почти социальная сеть, где вы можете сгенерировать изображение или видео и поделиться своим творчеством. Активное и дружелюбное комьюнити с собственными новыми звездами. Очень удобно реализовано в мобильных приложениях и представляет собой некий микс инструментов генерации и социальной сети.
Иные специализированные решения
В интернете вы найдете много разных специализированных сервисов для предметной, архитектурной визуализации, синхронизации и синтеза речи, сегментации, распознавания текста, трехмерной генерации, создания панорам, облаков точек по фото и прочего. Тем не менее с высокой долей вероятности под капотом большинства решений обнаружатся технологии, описанные выше.
Кроме того, это уже более комплексные и менее популярные в пользовательской среде решения, требующие больше навыков от пользователя. Подавляющее большинство таких решений требуют умений работы с терминалом и консолью так как не имеют пользовательских интерфейсов.
Совет эксперта
Андрей Киселёв
«Я посоветую Fooocus, так как это самое простое из локально доступных решений по генерации иллюстраций. Это модификация самой популярной открытой нейросети StableDiffusion. Причем Fooocus работает “из коробки” и не требует от пользователя никаких специализированных навыков — все модули и библиотеки подгружаются автоматически, и вы можете сразу приступить к работе и генерации».
Сергей Дубровский
«Эффективное использование нейросетей возможно лишь тогда, когда вы сами хорошо понимаете, что именно делаете и в чем заключается ваша идея. Только обладая способностью грамотно декомпозировать задачу, вы сможете применять нейросети, составлять качественные запросы и оценивать качество получаемых результатов. В противном случае вы рискуете получить посредственные результаты, за которые часто критикуют нейросети».
Заключение
Интеграция этих инструментов в профессиональную деятельность позволяет специалистам в области градостроительства повышать точность, эффективность и инновационность проектов, открывая новые возможности для креативных решений.
Внедрение передовых инструментов искусственного интеллекта (ИИ) и нейронных сетей в градостроительство открывает новые перспективы для архитекторов, инженеров и градостроителей. Использование локальных языковых моделей через интерфейсы LM Studio и Ollama обеспечивает конфиденциальность и эффективность обработки данных. Инструменты генерации контента, включая ChatGPT и Claude, способствуют автоматизации рутинных задач и стимулируют креативность.
Визуализация архитектурных концепций с помощью Stable Diffusion, ControlNet и Flux позволяет создавать фотореалистичные изображения и 3D-модели, учитывая культурные и эмоциональные аспекты. Технологии преобразования речи в текст, такие как Whisper и Faster Whisper, облегчают документирование и анализ аудио- и видеоматериалов.
Инструменты, такие как DALL·E и Runway ML, расширяют возможности визуализации и презентации проектов. GitHub Copilot упрощает программирование и автоматизацию процессов.
Использование переводчиков, основанных на нейросетях, таких как DeepL и Яндекс.Переводчик, обеспечивает качественную работу с иностранными источниками. Платформа Hugging Face предоставляет доступ к актуальной информации и моделям в области больших языковых моделей, способствуя внедрению инноваций.
Интеграция новых технологий в профессиональную деятельность позволяет повысить точность, эффективность и инновационность любых проектов, открывая новые горизонты для креативных решений и устойчивого развития городских пространств.
Авторы: Андрей Киселев, основатель студии sintez.space и Сергей Дубровский, эксперт Института общественных наук Президентской академии.