руслану

руслану


Компьютерное зрение считается молодой, однако крайне быстро развивающейся дисциплиной по меркам фундаментальных наук. В качестве самостоятельной оно сформировалось в начале 1950-х годов. Предложение анализировать микроснимки с использованием компьютером впервые прозвучало в 1951 году от Джона фон Неймана. Необходимость анализа множества микроснимков врачами ежедневно для обнаружения и определения количества различных клеток привела также к необходимости прибегнуть к автоматизации данного процесса путем сравнения яркости в соседних областях микроснимков. Аналоговые снимки — единственные существовавшие в то время — необходимо было оцифровывать посредством перевода в числовое представление. В этих целях использовались сканеры и другие устройства. Примитивность ранних систем оцифровки, а также малоформатность и низкая информативность используемых изображений привели к тому, что первые задачи заключались в автоматическом распознавании печатных буквенно-цифровых знаков.


1960-ые годы ознаменовали начало исследований в сфере чтения рукописного, а также машинописного текста. Что касается анализа микроснимков, была поставлена задача классифицировать хромосомы и клетки. К тому же времени предпринимаются первые попытки моделировать нейронную деятельность головного мозга человека с целью решения задач компьютерного зрения. В попытке воспроизведения функций мозга, были созданы простые аппаратные (позднее также и программные) модели биологического нейрона и системы его соединений. Настоящим прорывом в области машинного зрения можно смело назвать разработку психолога Корнеллской лаборатории аэронавтики Фрэнка Розенблатта — персептрон (от perception — восприятие). Модель была представлена на универсальной ЭВМ IBM-740 в 1958 году. в 1960 году был изготовлен аппаратный вариант персептрона — Mark I Perceptron. Рассчитан он был на распознавание визуальных образов. Рецепторное поле аппарата состояло из 400 точек (матрица 20х20), в ряд несложных задач, которые он был способен решить, входила возможность распознавать печатные буквы.


В 1963-м в своей диссертации Робертс предложил примитивный детектор краёв и начальные методы распознавания трёхмерных объектов на образцах. Подобные успехи дисциплины приводили исследователей к мнению, что для крупного прорыва осталось совсем немного. В те годы оптимизм среди исследователей в области искусственного интеллекта и сопутствующих ей дисциплин был распространенным явлением. Однако, позднее было выявлено, что модели не обладали должным потенциалом для описания реального мира. Тот факт, что изображение окружающего мира можно свести к объединению графических примитивов, таких как точки, отрезки прямых линий и плоские грани многогранников, был недостаточен для получения информации, отражающей всё многообразие мира.



  • Наличие чрезвычайно сложной взаимосвязи между свойствами трёхмерных объектов мира и их двумерными изображениями, осознанное в начале 1970-х годов, убедило учёных разобраться, как человек использует визуальную информацию (монокулярную, бинокулярную, информацию о движении) для мысленного построения трёхмерных структур. В результате в 1970-х годах британский нейробиолог и психолог Марр (Marr) стал основоположником научной программы, которая зиждилась на изучении зрительной системы человека с целью её формализации и реализации в виде алгоритмов. Марр предложил «учиться у природы», что широко используется во многих областях человеческой деятельности. Марр популяризировал идею определения «формы по N», где под N подразумевались разнообразные свойства изображений объектов – например, освещение и текстура. Поскольку окружающий нас мир трёхмерен (или даже четырёхмерен, если рассматривать время), а основной материал, с которым работает компьютерное зрение, представляет собой двумерные изображения, целью методов определения «формы по N» является восстановление потерянного измерения. Марр особенно подчёркивал роль зрительной системы человека в решении задач компьютерного зрения. Рассматривая зрительную систему человека совершенной «живой машиной» он не без оснований считал, что знание о том, как она устроена, поможет построить искусственные зрительные системы, которые были бы так же устойчивы, как зрение человека. В рамках этой программы «от человека к машине» Марр вместе с другими учеными предложил детектор краев, а также алгоритм стереозрения (определения глубины точки сцены путем анализа её расположения на двух соседних изображениях), основанный на работе зрительной системы человека. Парадигма, предложенная Д. Марром на основе длительного изучения механизмов зрительного восприятия человека, утверждает, что обработка изображений опирается на несколько последовательных уровней восходящей информационной линии «иконическое представление объектов (растровое изображение, неструктурированная информация) — символическое представление (векторные и атрибутивные данные в структурированной форме, реляционные структуры)» и должна осуществляться по модульному принципу посредством следующих этапов обработки:
  • предобработка изображений;
  • сегментация;
  • выделение геометрической структуры;
  • определение относительной структуры и семантики.


В зависимости от этапа уровни обработки получили соответсвующие названия: обработка нижнего, среднего, высокого уровня. Алгоритмы нижнего уровня, являющиеся наиболее примитивными, включают фильтрацию простых шумов, гистограммную обработку и считаются детально изученными и хорошо проработанными системами. Иная ситуация обстоит с алгоритмами среднего уровня (сегментация) — они все еще продолжают быть центральной темой исследований. Значительный прогресс в последнее время был достигнут по отношению к задачам сопоставления точек и фрагментов изображений, выделения признаков внутри малых фрагментов, высокой точности 3D-позиционирования точек, что подразумевает моделирование на более высоком уровне, а также калибровку датчиков и их комбинаций, выделение простых яркостно-геометрических структур".


В 1980-х энтузиасты этой области сменили свой курс, и обрела популярность другая программа исследований, а именно поиск новых сложных математических методов, которые можно применить в решении задач компьютерного зрения. Исследователи старались брать популярные в других областях математические методы, изучать их и искать задачи зрения, которые могли бы быть им решены. И по сей день эта практика довольно распространена в сфере информационных технологий. Применение ряда математических методов позволило достаточно успешно решить сложные задачи компьютерного зрения (к ним можно отнести методы теории графов или математической физики, которые сейчас широко используются для сегментации и фильтрации изображений). Тем не менее, такой подход зачастую позволял лишь найти применение математическим методам, а не решить задачи. Стало очевидным, что уделять больше времени стоит самим задачам, а не методам их решения, вне зависимости от того, «биологические» ли они или «чисто математические».  


В девяностых годах ХХ в. появились датчики двухмерных цифровых информационных полей различной физической природы нового поколения. К ним относят, например, датчики, базирующиеся на матрицах ПЗС, датчики ночного видения, тепловые датчики, лазерные локаторы и др. Устойчивые во времени изображения, генерируемые этими датчиками, было обусловлено развитием новых измерительных систем и методов регистрации двухмерных цифровых информационных полей в реальном масштабе времени, которые применялись в первую очередь в анализе. Новейшие технологии производства этих датчиков позволяли существенным образом снизить их стоимость, а это приводило к широкой области их применения. Алгоритмы машинного зрения на стандартных компьютерах, действующие в режиме реального времени, реализовались за счет роста быстродействия микропроцессоров, снижения цен на камеры и десятикратного увеличения полосы пропускания при передаче видео.


Прорыв в компьютерном зрении произошел в конце 1990-х годов и в течение первого десятилетия XXI века, когда качественный скачок был произведен сразу в нескольких направлениях. Новые парадигмы, охватывающие полностью всю дисциплину, выявить трудно. Можно сказать, что скачок вызван, в первую очередь, резким ростом интереса к компьютерному зрению и, как следствие, большой заинтересованностью исследователей в переносе методов из других дисциплин (искусственный интеллект, математическая статистика, фотограмметрия) в данную. Главным результатом этого прорыва стали новые методы описания изображений: специальные функции в откликах изображения на свертку – вейвлеты и фильтры Габора – предоставили возможность описывать изображения в очень компактной форме, и это стало причиной целого направления поиска изображений в базах данных. Помимо того, усовершенствованные описания интересных областей изображения, например, дескриптор SIFT (а также его аналоги), позволили осуществлять правдоподобную трехмерную реконструкцию, точность которой может соперничать с точностью моделей, полученных посредством активного лазерного сканирования.


Начало ХХI века в фотограмметрии ознаменовалось возможностью строить трехмерные модели в медицине практически в реальном времени. Широкое применение трехмерная реконструкция получила и в области создания компьютерных моделей городов. Так, например, интернет-приложение PhotoSynth обрабатывает сотни фотоснимков достопримечательностей и создает их трехмерные модели, публикующиеся в свободном доступе для возможности совершать виртуальные прогулки или экскурсии. Визуальная составляющая данных моделей достаточно хорошо отображена, что позволяет пользователю получить больше информации об объектах, чем дают отдельные фотографии. Между тем, математически эти модели не очень точны, однако они все же создают «эффект присутствия» пользователя. 


Одной из областей, где сегодня активно применяется компьютерное зрение, стала обработка видео. Ранее это направление могло поддерживаться по причине слабой мощности компьютеров. Сейчас же компьютеры стали использоваться в биометрии, видеонаблюдении, распространились и приложения по распознаванию лиц. Также начались вестись работы в области распознавания действий и поведения по видеоинформации.


Именно объединение компьютерного зрения и компьютерной графики привнесло в мир так называемую «дополненную реальность» (augmented reality). Концепция дополненной реальности заключается в синтезе ощущений реального мира (в частности, изображений) вместе с добавленными к ним нереальными объектами, обычно вспомогательно-информативного свойства. Так, к дополненной реальности можно отнести трехмерную модель города (например, Трою), полностью воссозданной из фотографий. Модель оснащена визуальными объектами в виде персонажей, деревьев, мостов. Говоря иначе, разница между дополненной и виртуальной реальностью заключается в том, что первая лишь содержит виртуальные элементы, тогда как виртуальная реальность конструирует новый искусственный мир. Дополненная реальность вполне может использоваться (помимо развлечения) в тех областях, которые требуют синтеза информации разной природы и её представление в удобном и сжатом виде.


На данный момент такие крупные поисковые системы, как Google и Яндекс, включают в свой функционал возможность навигации по картам городов. Помимо визуального отображения карт непосредственно, существует возможность взглянуть на модели городов в качестве наблюдателя, находящегося непосредственно на местности, модуль которой представлен. Опираясь на прогнозы и идеологию дополненной реальности, можно сказать, что вероятно, что в будущем появится возможность получать информацию об отдельных домах, визуализировать их со всех сторон, в том числе и изнутри; Так, по снимкам фасадов можно будет искусственно создавать вид из окна того или иного этажа.


К сегодняшнему дню теория компьютерного зрения представлена в качестве самостоятельного раздела кибернетики, располагающего солидным научным и практическим материалом. Каждый год издаются сотни книг и монографий по данной теме, проводятся десятки конференций и симпозиумов, выпускается различное программное и аппаратно-программное обеспечение. Ряд научно-общественных организаций активно поддерживают и освещают результаты исследований в области современных комьютерных технологий, в том числе технологии компьютерного зрения. К таким организациям относятся, в свою очередь, такие как SPIE (Международное сообщество по оптической инженерии), IEEE Computer Society (Institute of Electrical and Electronics Engineers), РОФДЗ (Общество содействия развитию фотограмметрии и дистанционного зондирования) и другие.


Report Page