Компьютерное зрение

Андрей Барышников

В 1966 году профессор Марвин Ли Минский (1927–2016) дал студентам MIT задание на лето: решить проблему компьютерного зрения. Он кратко выписал основные тезисы и добавил: «Серьезно, это не должно занять много времени».

Прошло 50 лет. Студенты уже стали профессорами и докторами наук, но проблему компьютерного зрения они решают до сих пор.

СМИ начали упоминать компьютерное зрение совсем недавно, однако мы постоянно используем его в обычной жизни. Считывание штрихкодов, дополненная реальность, съемка панорам, 3D-сканирование объектов, распознавание текста и лиц на фотографиях, обработка и поиск изображений... Все эти технологии основаны на компьютерном зрении. Даже сканер отпечатка пальца и датчики глубины в камерах — это тоже компьютерное зрение!

Сейчас с помощью компьютерного зрения автомобили определяют препятствия и пешеходов, камеры смартфонов стабилизируют изображение, слепые люди получают возможность ориентироваться в пространстве, а YouTube лучше распознаёт поисковый запрос пользователя и находит подходящие видеоролики.

Вдобавок, компьютерное зрение позволяет видеть информацию, которую глаз человека не способен заметить. Например, оно может «усиливать» движение. Это как микроскоп: можно отчетливо увидеть сердцебиение новорожденного или пульсацию вен у взрослого человека.

По умолчанию компьютер видит только комплекс из цифр, которые передают цвет. Однако этого недостаточно, чтобы он начал распознавать информацию — предварительно ее нужно интерпретировать.

Существуют четыре основных способа интерпретации информации:

1. Распознавание объектов;

2. Реконструкция объектов;

3. Отслеживание изображения;

4. Реорганизация изображения.

Распознавание объектов решает базовые задачи компьютерного зрения. С его помощью машина может определить тип объекта — стол, стул, дерево, собака, кошка, растение, ребёнок. Однако этот метод не позволяет определить спецификацию информации (например, тип дерева).

Реконструкция объектов захватывает двухмерное изображение и при помощи специальных алгоритмов совмещает его с трехмерном положением в сцене, после чего достраивает изображение до трёхмерной модели.

Отслеживание изображения контролирует передвижение объектов и работу света. Этот метод активно используют камеры с дополненной реальностью типа Snapchat и самоуправляемые автомобили с системами LiDAR.

Реорганизация изображения это самообучающаяся модель компьютерного зрения. Обычно компьютерное зрение учится распознавать объекты при помощи обработки массива конкретной информации — условно, человек загружает 200 тысяч фотографий собак и указывает напротив каждой фотографии, что это собака. Реорганизация изображения позволяет загружать один общий массив данных с разными объектами, после чего алгоритм их реорганизует и начинает определять разные типы данных.

В перспективе реорганизация изображения позволит не тратить время и силы людей на создание микропрограмм цеховых станков, которые собирают технику и переносят конкретные вещи. Они смогут сами определять, с какими объектами должны работать — и как это делать.

По мере развития компьютерного зрения мы придём к миру, где для получения подробной информации об объекте будет достаточно направить на него камеру смартфона. Однако до этого пока еще далеко — ученые, которые разрабатывают компьютерное зрение, сравнивают нынешний этап развития технологии с алхимией; они же пытаются развить ее до уровня химии.

Компьютерное зрение

Report Page