Дайджест 21.08.24
Psy Eyes📹 ВИДЕО + АРТ 🎨
По Flux очень много всего. Отдельно поговорим.
Fuzer: инструмент для вписывания объектов на прозрачном фоне в нужный контекст на картинке. В версии v 0.3 появилась поддержка режима Anime.
Runway: выпустили быстрый генератор видео Gen-3 Turbo. Поддерживает использование последнего кадра созданного видео как начало следующего для почти бесшовного его продолжения.
Comfy: перешли на новый фронтэнд, который должен упростить работу с моделями и ускорить разработку новых фич. Уже в Pinokio.
Kling: на этот видеогенератор появилась подписка с карты (до этого был PayPal).
Phygital+: интегрировали Flux, ControlNet XL, улучшенный Describe Image, и обновили UI.
VEnhancer: улучшайзер для сгенерированных видео. В отличие от апскейлеров типа Topaz здесь помимо общего повышения детализации сами видео становится структурно консистентнее и плавнее.
AuraSR: в версии V2 этого быстрого апскейлера картинок улучшилась работа с реальными картинками, а не только синтетическими. Также исправлены артефакты и излишняя детализация.
CogVideoX: опенсорсный генератор видео в разрешении 720х480. Чтобы гонять локально нужно 24 ГБ VRAM.
ProCreate: метод повышения креативности и разнообразия генерируемых картинок у диффузионных моделей.
Puppet Master: анимация простых объектов стрелочками. Развитие идей DragNUWA и DragAnything. Качество пока слабое.
TraDiffusion: генерация картинок без тренировки с контролем через указание траектории.
AuraFlow: генератор картинок обновился до v 0.3. Подкрутили эстетичность и прицепили выбор разрешения изображения.
Ещё один удалятор фона. На полку к Bria, BiRefNet и другим варикам.
ZLUDA: CUDA для видюх AMD обновилась до v 3.8.2. Появилась поддержка Rust 1.80.
UniPortrait: вписывание одного или нескольких лиц в нужный стиль на картинке. Похоже на InstantID и иже с ними.
Jimeng: новый генератор видео от авторов CapCut.
Unity: выпустили IPAdapter-Instruct, в который можно вкинуть картинку и указать, что использовать из неё: стиль, цвет, композицию, позу, или лицо.
Lumina-mGPT: модель, которая генерит изображения на основе разных входных форматов (не только текст или картинка).
Google: представили Imagen 3 для генерации картинок. Улучшилось понимание промта, детализация изображения и работа с разными стилями.
Apple: выпустили генератор картинок и видео Matryoshka Diffusion (ML-MDM), который можно запустить на CPU.
Artist: простенькая модель для смены стиля картинки.
👾 3D + Сплаты/Нерфы
Nerfstudio: интегрировали Bilateral Guided Radiance Fields для реконструкции сплатов с чёткими цветами и экспозицией, поддержку multi-gpu для распределённой растеризации (4 гпу даёт х3 ускорение и требует х3 меньше памяти), а также значительное сжатие сцен до 8 Мб против 1 Гб год назад.
PlayCanvas: редактор сплатов SuperSplat добрался до версии v 1.0. Основные улучшения коснулись UI/UX.
CityGaussian: реалтайм реконструирование крупномасштабных сцен в сплатах. Из похожего: H3DGS, LoG или Grid-guided NeRF.
MetalSplatter: рендеринг сплатов на девайсах Apple с Metal. Есть гитхаб и аппстор.
Splatviz: интерактивный просмотрщик и редактор сплатов.
Compact 3DGS: метод сжатия динамичных и статичных сплат-сцен. На примерах показывают х12-25 сжатие (774 МБ --> 28 МБ) без существенной потери качества. Похожее: GES.
FruitNerf: модель заточенная считать число яблок внутри нерфа.
InstantSplat: модель для получения сплатов за секунды. В примере, на сцену из 3 видов ушло 9 секунд. Для получения таких результатов нужна 4090 или A100.
StabilityAI: релизнули SF3D, модель для сверхбыстрой генерации 3D. Можно контролировать форму слайдером глубины и подгрузить HDR карту для освещения обхъекта.
Omages: новый метод получения 3D через генерацию 2D плоскости размером 64х64 с данными о геометрии и не только. Это позволяет решить проблемы геометрической и семантической нерегулярности.
SHIC: загружаем или выбираем фото животного из списка (медведь/лошаль/слон), кликаем на него, и получаем его заготовленный 3D меш.
MeshAnything: в версии V2 модель может брать черновые генерации другими 3D моделями и пересобирать их в 3D меши с 1600 полигонов.
Sudo.ai: представили SpaRP, генератор 3D по картинкам с фокусом на качественной реконструкции меша в новых углах обзора (лучше грузить ). Также они выпустили MeshFormer, для генерации не только по картинкам, но и тексту (в демке только по изображению). Для тренировки понотребовалось 8 H100 на 2 дня. Из подобного: Meshy, CRM, итд.
Meshy: генерить 3D теперь можно в режиме Hard Surface с высокой детализацией меша и четкой топологией. Плюс завезли анимацию.
👗 Виртуальные примерочные
CatVTON: виртуальная примерочная. Нужно минимум 8 ГБ VRAM чтобы гонять локально. Из похожего: OOTDiffusion, итд.
IMAGDressing-V1: ещё один виртуальный гардероб на основе IDM-VTON. Сильно мажет лица.
🎭 Дипфейки + Аватары + Анимация лиц
LivePortrait: теперь источником анимации фото может являться другое экспрессивное фото, а не только видео. И есть анимация животных в "Animal Mode". Плюс появился установщик в 1 клик через Pinokio, портативная сборка от Neurogen, и расширение для A1111.
Hedra: выпустили генератор говорящих голов Character-1.5. Улучшилась детализация картинки, анимация персонажей, добавили голосов и возможность смены стиля видео.
Neurogen: выпустил дипфейкер RopeMod v 2.5 с поддержкой TensorRT, тонкой настройки радужки гла/губ/рта, и другое по-мелочи.
Deep Live Cam: дипфейкер хорошо работающий с освещением и мимикой даже в в темноте в реальном времени.
🎸 ЗВУК 🎸
Gradio: пакет gradio-osc для соединения Open Sound Control сервера с Gradio API.
Futga: языковая модель для получения детального описания музыки и чата по ней. Может пригодиться как нода ваяющая подробный промт из короткого описания пользователя.
Whisper-Medusa: версия генератора речи Whisper, которая заточена на шустрое распознавание голоса в текст.
🤖 ЧАТЫ 🤖
Outerbasis: представили Hot Swap для быстрого переключения между разными языковыми моделями (LLM) на одной видюхе и распределения нагрузки. В демке на переключение между ~16 ГБ моделями на видюхе с 24 ГБ VRAM уходит меньше 2 сек.
Cybench: бенчмарк для LLM на тему кибербезопасности.
Sakana AI: сделали фреймворк AI Scientist для автоматизации проведения исследований с помощью AI-агентов.
Transformer Explainer: интерактивная визуализация работы архитектуры трансформеров.
Nous: релизнули ллм Hermes 3 в размерах от 8B до 405B (или вот квантизированная версия). Улучшения в агентских заданиях, вызове функций, длинных переписках, итд по мелочи.
OpenAI: GPT-4o обновился и теперь поддерживает структурированные ответы, а также цена API вызовов стала меньше. Плюс начали раскатывать доступы расширенному голосовому режиму владельцам подписки, а на бесплатном акке теперь можно генерить 2 картинки в день через DALLE-3.
Google также снижает цену на API вызовы.
xAI: Илон выпустил Grok-2 в бете. Эта LLM доступна только владельцам преимуимов в твиттере, либо через API. Про опенсорс нигде не сказано, хотя наличие модели Mini на это намекает. Картинки генерит через Flux.
LongWriter: шинкуем для LLM задачи на подзадачи, чтобы генерить тексты длиной 20к+ слов, даже если их такому не учили.
Salesforce: выкатили фреймворк xGen-MM (ранее BLIP-3) для тренировки мультимодальных LLM. В отличие от BLIP-2 упрощён тренировочный процесс и и интегрирован более масштабируемый семплер визуальных токенов.
MiniCPM-V 2.6: визуальная языковая модель (VLM) с 8B параметрами для чата по картинкам и видео (в том числе в реальном времени) на телефоне/планшете. Хорошо показывает себя на бенчах. Демо.
Falcon Mamba: 7B ллм, которая на 24 ГБ видюхе может обрабатывать неограниченные текстовые последовательности (так заявлено) и неплохо показывает себя на бенчах.
LLaVA OneVision: серия VLM моделей Llava пополнилась версией OneVision, которая тоже может чатиться по картинкам и видео.
Hugging Face: выпустили Idefics 3. Тоже VLM но с фокусом на картинках. Под капотом для чата используется Llama 3.1. Также у них теперь единый API, через которые разные LLM могут использовать доступные на хаггинге инструменты (поиск в интернете, генерация картинок, итд), и ответвления от базовой ллм показаны древовидно.
Gradio: появился порт на .NET, вывод картинок на весь экран, кастомизируемые дашборды, исправлены баги связанные с безопасностью (защита от XSS-атак, несанкционированный доступ, итд).
LLM-DetectAIve: инструмент для проверки текста на генератив.
Использование диффузионных моделей генерирующих изображения для дата майнинга.
Qwen: выпустили мощные Qwen2-VL для чата по картинкам и Qwen2 Math для решения задач по математике. Плюс модель Qwen2-Audio для работы со звуком/музыкой.
DeepSeek: релизнули ллм Prover 1.5 для работы с теоремами.
Nvidia: выкатили LongVILA, чат по множеству картинок и длинным видео (1024 кадра).
CodeGraph: мульти-задачный агент для работы с кодом, который умело использует контекстное окно и постоянно в курсе текущей структуры кодовой базы.
ArxivGPT: сжимаем исследовательские пейперы до нескольких абзацев.
Lynx: модель для выявления галлюцинаций у LLM. Есть 8B модель с 128К контекстом и 70B с 8К.
AppWorld: фреймворк из AI-агентов, симулирующих работу в популярных приложениях, и интерактивно генерящих код касательно взаимодействия с ними.
Palmyra-Fin: 32k языковая модель размером 70B для чата по задачам, связанным с финансами.
Optimus-1: мультимодальный AI-агент с широким горизонтом планирования и контекстной памятью на основе полученного опыта.
Взгляд изнутри на то как работает языковая модель Gemma.
Openstory++: датасет для визуальной и текстовой аннотации кадров из видео.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude