Case-study. Computer vision model. Кто лучше? Тот, кто знает куда копать, чтобы решить силами одного.
«Как приручить ИИ»Синоптики обещали, что лето 2024 года будет жарким. Так оно и произошло: на термометрах +34, а на наших экранах — новая модель Florence-2 для решения задач компьютерного зрения от компании Microsoft.
Как это работает?
Модель Florence-2 обучали под следующий сценарий: вы подаете на вход картинку и промпт, в котором описано какую именно задачу нужно решить. Пример работы модели на картинке ниже:
Таким образом модель Florence-2 может решать следующие задачи прямо «из коробки»:
- Image captioning — подписывание объектов, генерация коротких описаний изображения.
- Детекция — локализация объекта на картинке с использованием ограничивающих прямоугольников (bounding box).
- Сегментация — выделение объектов на картинке.
- OCR — оптическое распознавание символов. Перевод документов из изображений в формат редактируемого текста.
Особенно приятно, что для применения Florence-2 либо вообще не требуется дополнительных ресурсов со стороны ваших ML-инженеров, либо, в некоторых случаях, требуются минимальные усилия для дообучения сети.
Примеры потенциального применения Florence-2
1. Генерация описаний товаров. Допустим, у вас есть интернет-магазин с большим количеством продукции. С помощью Florence-2 можно заметно ускорить процесс описания карточек товаров.
2. Безопасность. Камеры наблюдения автоматически определяют подозрительные действия и отправляют предупреждения.
3. Документооборот. Различные организации могут использовать модель Florence-2 для распознавания документов и сэкономить финансы, которые могли быть потрачены на свою собственную разработку.
Подведем итоги
Florence-2 – это, безусловно, большой шаг вперёд. Многие задачи из области компьютерного зрения теперь решаются сходу или требуют минимальных доработок со стороны ваших разработчиков. Так что следите за новостями в этой области, потому что будущее уже здесь!