Дайджест 21.08.24

Psy Eyes

📹 ВИДЕО + АРТ 🎨

По Flux очень много всего. Отдельно поговорим.

Fuzer: инструмент для вписывания объектов на прозрачном фоне в нужный контекст на картинке. В версии v 0.3 появилась поддержка режима Anime.

Runway: выпустили быстрый генератор видео Gen-3 Turbo. Поддерживает использование последнего кадра созданного видео как начало следующего для почти бесшовного его продолжения.

Comfy: перешли на новый фронтэнд, который должен упростить работу с моделями и ускорить разработку новых фич. Уже в Pinokio.

Kling: на этот видеогенератор появилась подписка с карты (до этого был PayPal).

Phygital+: интегрировали Flux, ControlNet XL, улучшенный Describe Image, и обновили UI.

VEnhancer: улучшайзер для сгенерированных видео. В отличие от апскейлеров типа Topaz здесь помимо общего повышения детализации сами видео становится структурно консистентнее и плавнее.

AuraSR: в версии V2 этого быстрого апскейлера картинок улучшилась работа с реальными картинками, а не только синтетическими. Также исправлены артефакты и излишняя детализация.

CogVideoX: опенсорсный генератор видео в разрешении 720х480. Чтобы гонять локально нужно 24 ГБ VRAM.

ProCreate: метод повышения креативности и разнообразия генерируемых картинок у диффузионных моделей.

Puppet Master: анимация простых объектов стрелочками. Развитие идей DragNUWA и DragAnything. Качество пока слабое.

TraDiffusion: генерация картинок без тренировки с контролем через указание траектории.

AuraFlow: генератор картинок обновился до v 0.3. Подкрутили эстетичность и прицепили выбор разрешения изображения.

Ещё один удалятор фона. На полку к Bria, BiRefNet и другим варикам.

ZLUDA: CUDA для видюх AMD обновилась до v 3.8.2. Появилась поддержка Rust 1.80.

UniPortrait: вписывание одного или нескольких лиц в нужный стиль на картинке. Похоже на InstantID и иже с ними.

Jimeng: новый генератор видео от авторов CapCut.

Unity: выпустили IPAdapter-Instruct, в который можно вкинуть картинку и указать, что использовать из неё: стиль, цвет, композицию, позу, или лицо.

Lumina-mGPT: модель, которая генерит изображения на основе разных входных форматов (не только текст или картинка).

Google: представили Imagen 3 для генерации картинок. Улучшилось понимание промта, детализация изображения и работа с разными стилями.

Apple: выпустили генератор картинок и видео Matryoshka Diffusion (ML-MDM), который можно запустить на CPU.

Artist: простенькая модель для смены стиля картинки.

👾 3D + Сплаты/Нерфы

Nerfstudio: интегрировали Bilateral Guided Radiance Fields для реконструкции сплатов с чёткими цветами и экспозицией, поддержку multi-gpu для распределённой растеризации (4 гпу даёт х3 ускорение и требует х3 меньше памяти), а также значительное сжатие сцен до 8 Мб против 1 Гб год назад.

PlayCanvas: редактор сплатов SuperSplat добрался до версии v 1.0. Основные улучшения коснулись UI/UX.

CityGaussian: реалтайм реконструирование крупномасштабных сцен в сплатах. Из похожего: H3DGS, LoG или Grid-guided NeRF.

MetalSplatter: рендеринг сплатов на девайсах Apple с Metal. Есть гитхаб и аппстор.

Splatviz: интерактивный просмотрщик и редактор сплатов.

Compact 3DGS: метод сжатия динамичных и статичных сплат-сцен. На примерах показывают х12-25 сжатие (774 МБ --> 28 МБ) без существенной потери качества. Похожее: GES.

FruitNerf: модель заточенная считать число яблок внутри нерфа.

InstantSplat: модель для получения сплатов за секунды. В примере, на сцену из 3 видов ушло 9 секунд. Для получения таких результатов нужна 4090 или A100.

StabilityAI: релизнули SF3D, модель для сверхбыстрой генерации 3D. Можно контролировать форму слайдером глубины и подгрузить HDR карту для освещения обхъекта.

Omages: новый метод получения 3D через генерацию 2D плоскости размером 64х64 с данными о геометрии и не только. Это позволяет решить проблемы геометрической и семантической нерегулярности.

SHIC: загружаем или выбираем фото животного из списка (медведь/лошаль/слон), кликаем на него, и получаем его заготовленный 3D меш.

MeshAnything: в версии V2 модель может брать черновые генерации другими 3D моделями и пересобирать их в 3D меши с 1600 полигонов.

Sudo.ai: представили SpaRP, генератор 3D по картинкам с фокусом на качественной реконструкции меша в новых углах обзора (лучше грузить ). Также они выпустили MeshFormer, для генерации не только по картинкам, но и тексту (в демке только по изображению). Для тренировки понотребовалось 8 H100 на 2 дня. Из подобного: Meshy, CRM, итд.

Meshy: генерить 3D теперь можно в режиме Hard Surface с высокой детализацией меша и четкой топологией. Плюс завезли анимацию.

👗 Виртуальные примерочные

CatVTON: виртуальная примерочная. Нужно минимум 8 ГБ VRAM чтобы гонять локально. Из похожего: OOTDiffusion, итд.

IMAGDressing-V1: ещё один виртуальный гардероб на основе IDM-VTON. Сильно мажет лица.

🎭 Дипфейки + Аватары + Анимация лиц

LivePortrait: теперь источником анимации фото может являться другое экспрессивное фото, а не только видео. И есть анимация животных в "Animal Mode". Плюс появился установщик в 1 клик через Pinokio, портативная сборка от Neurogen, и расширение для A1111.

Hedra: выпустили генератор говорящих голов Character-1.5. Улучшилась детализация картинки, анимация персонажей, добавили голосов и возможность смены стиля видео.

Neurogen: выпустил дипфейкер RopeMod v 2.5 с поддержкой TensorRT, тонкой настройки радужки гла/губ/рта, и другое по-мелочи.

Deep Live Cam: дипфейкер хорошо работающий с освещением и мимикой даже в в темноте в реальном времени.

🎸 ЗВУК 🎸

Gradio: пакет gradio-osc для соединения Open Sound Control сервера с Gradio API.

Futga: языковая модель для получения детального описания музыки и чата по ней. Может пригодиться как нода ваяющая подробный промт из короткого описания пользователя.

Whisper-Medusa: версия генератора речи Whisper, которая заточена на шустрое распознавание голоса в текст.

🤖 ЧАТЫ 🤖

Outerbasis: представили Hot Swap для быстрого переключения между разными языковыми моделями (LLM) на одной видюхе и распределения нагрузки. В демке на переключение между ~16 ГБ моделями на видюхе с 24 ГБ VRAM уходит меньше 2 сек.

Cybench: бенчмарк для LLM на тему кибербезопасности.

Sakana AI: сделали фреймворк AI Scientist для автоматизации проведения исследований с помощью AI-агентов.

Transformer Explainer: интерактивная визуализация работы архитектуры трансформеров.

Nous: релизнули ллм Hermes 3 в размерах от 8B до 405B (или вот квантизированная версия). Улучшения в агентских заданиях, вызове функций, длинных переписках, итд по мелочи.

OpenAI: GPT-4o обновился и теперь поддерживает структурированные ответы, а также цена API вызовов стала меньше. Плюс начали раскатывать доступы расширенному голосовому режиму владельцам подписки, а на бесплатном акке теперь можно генерить 2 картинки в день через DALLE-3.

Google также снижает цену на API вызовы.

xAI: Илон выпустил Grok-2 в бете. Эта LLM доступна только владельцам преимуимов в твиттере, либо через API. Про опенсорс нигде не сказано, хотя наличие модели Mini на это намекает. Картинки генерит через Flux.

LongWriter: шинкуем для LLM задачи на подзадачи, чтобы генерить тексты длиной 20к+ слов, даже если их такому не учили.

Salesforce: выкатили фреймворк xGen-MM (ранее BLIP-3) для тренировки мультимодальных LLM. В отличие от BLIP-2 упрощён тренировочный процесс и и интегрирован более масштабируемый семплер визуальных токенов.

MiniCPM-V 2.6: визуальная языковая модель (VLM) с 8B параметрами для чата по картинкам и видео (в том числе в реальном времени) на телефоне/планшете. Хорошо показывает себя на бенчах. Демо.

Falcon Mamba: 7B ллм, которая на 24 ГБ видюхе может обрабатывать неограниченные текстовые последовательности (так заявлено) и неплохо показывает себя на бенчах.

LLaVA OneVision: серия VLM моделей Llava пополнилась версией OneVision, которая тоже может чатиться по картинкам и видео.

Hugging Face: выпустили Idefics 3. Тоже VLM но с фокусом на картинках. Под капотом для чата используется Llama 3.1. Также у них теперь единый API, через которые разные LLM могут использовать доступные на хаггинге инструменты (поиск в интернете, генерация картинок, итд), и ответвления от базовой ллм показаны древовидно.

Gradio: появился порт на .NET, вывод картинок на весь экран, кастомизируемые дашборды, исправлены баги связанные с безопасностью (защита от XSS-атак, несанкционированный доступ, итд).

LLM-DetectAIve: инструмент для проверки текста на генератив.

Использование диффузионных моделей генерирующих изображения для дата майнинга.

Qwen: выпустили мощные Qwen2-VL для чата по картинкам и Qwen2 Math для решения задач по математике. Плюс модель Qwen2-Audio для работы со звуком/музыкой.

DeepSeek: релизнули ллм Prover 1.5 для работы с теоремами.

Nvidia: выкатили LongVILA, чат по множеству картинок и длинным видео (1024 кадра).

CodeGraph: мульти-задачный агент для работы с кодом, который умело использует контекстное окно и постоянно в курсе текущей структуры кодовой базы.

ArxivGPT: сжимаем исследовательские пейперы до нескольких абзацев.

Lynx: модель для выявления галлюцинаций у LLM. Есть 8B модель с 128К контекстом и 70B с 8К.

AppWorld: фреймворк из AI-агентов, симулирующих работу в популярных приложениях, и интерактивно генерящих код касательно взаимодействия с ними.

Palmyra-Fin: 32k языковая модель размером 70B для чата по задачам, связанным с финансами.

Optimus-1: мультимодальный AI-агент с широким горизонтом планирования и контекстной памятью на основе полученного опыта.

Взгляд изнутри на то как работает языковая модель Gemma.

Openstory++: датасет для визуальной и текстовой аннотации кадров из видео.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Дайджест 21.08.24

Report Page