Компьютерное зрение

Автор работы: Пользователь скрыл имя, 09 Мая 2012 в 22:16, доклад

Краткое описание

Компьютерное зрение — теория и технология создания машин, которые могут производить обнаружение, слежение и классификацию объектов.
Как научная дисциплина, компьютерное зрение относится к теории и технологии создания искусственных систем, которые получают информацию из изображений.

Вложенные файлы: 1 файл

Компьютерное зрение.docx

— 28.58 Кб (Скачать файл)

Компьютерное зрение — теория и технология создания машин, которые могут производить обнаружение, слежение и классификацию объектов.

Как научная дисциплина, компьютерное зрение относится к теории и технологии создания искусственных систем, которые  получают информацию из изображений. Видеоданные  могут быть представлены множеством форм, таких как видеопоследовательность, изображения с различных камер  или трехмерными данными с  медицинского сканера.

Как технологическая дисциплина, компьютерное зрение стремится применить теории и модели компьютерного зрения к  созданию систем компьютерного зрения.

Удивительная сложность проблемы "понимания изображений" может быть объяснена тем обстоятельством, что её интеллектуальная (алгоритмическая) составляющая оказалась во многом более сложной, чем традиционные задачи типа компьютерной игры в шашки или шахматы, которые долгие годы служили полем приложения методов "искусственного интеллекта". Это связано со сложностью основного предмета, находящегося в центре внимания данной дисциплины, а именно – двумерного изображения. Скорее правилом, чем исключением является отсутствие у информационного семантического содержания изображения какой либо "причинной" или динамической модели формирования, в том смысле, что это информационное семантическое содержание возникает не под действием каких-либо физических законов, описывающихся математическими уравнениями. Информационное наполнение изображения проявляется в виде бесконечного разнообразия яркостно-геометрических структур, модели порождения которых могут просто отсутствовать. Особенно сложной задачей является "понимание" объектов, присутствующих в сцене наблюдения. Обнаружение и идентификация многих типов таких объектов, например, зданий и дорог на аэрофотоснимках превратились даже в отдельные направления исследований. Таким образом следует признать, что общая теория "понимания изображений" за последние 30-40 лет ещё не вышла из начального возраста, и то её состояние, которое может быть зафиксировано сегодня - это сочетание ряда нерешенных к настоящему моменту теоретических задач, с одной стороны, и большого числа идей и подходов, далеких от окончательного вида хорошо разработанной теории.

В то же время для  решения многих практически важных задач компьютерного зрения общая  проблема "понимания изображений" может быть редуцирована к гораздо  более простой и ясной проблеме обнаружения и распознавания  или измерения по одному или нескольким изображениям объектов, удовлетворяющих  некоторому, заранее известному модельному описанию. Теория компьютерного зрения предлагает целый ряд различных  модельных описаний наблюдаемых  объектов, которые могут быть использованы для их обнаружения и измерения. В литературе описан широкий спектр таких моделей – от простейших признаковых описаний до высоко специализированных и изощренных структурных моделей. Однако общий метод составления работоспособных моделей по вышеупомянутым причинам отсутствует. Мир реальных объектов, в отличие от идеального «мира многогранников», построенного Робертсом ещё в 1960-е годы, демонстрирует чрезвычайную изменчивость входных изображений. Поэтому необходимо разрабатывать всё более совершенные компьютерные алгоритмы для вычисления «сущности», инвариантных признаков объектов. Отсюда следует, что разработка и использование моделей, пригодных для эффективного решения задачи обнаружения соответствующих объектов, в значительной степени остается на грани науки и искусства, т.е. требует особого знания предметной области, отражающего многолетний опыт исследований по решению частных задач.

Методологические проблемы компьютерного зрения связаны с  рядом требований к алгоритмам. Рассмотрим их на примере наиболее специфической  группы алгоритмов – алгоритмов обнаружения  объектов на изображениях. Итак, разрабатываемые  алгоритмы, решающие прикладные задачи машинного зрения, должны работать на реальных изображениях. Вид объекта  на изображении может значительно  меняться. Факторами, влияющими на процесс  обнаружения, могут быть и шумовые  эффекты, имеющие десятки видов  источников возникновения, и сложный  текстурированный фон, и загораживание  одних объектов другими. Кроме того, изображение может сильно меняться в зависимости от освещения, особенно в динамически меняющихся сценах.

Отсутствие формализованного описания ключевых факторов, вносящих неопределенность в процесс обработки, приводит к тому, что говорить о  существовании единственного оптимального алгоритма для решения той  или иной задачи обработки изображений  будет невозможно еще многие годы. Представим себе, что существует несколько алгоритмов, достигающих примерно одинаковых результатов на "идеальных" изображениях. Тогда возникает естественный вопрос, как сравнить эти алгоритмы по качеству их работы. Признаком зрелости компьютерного зрения как дисциплины является возможность проверки алгоритмов на общедоступных наборах данных. В настоящее время существуют большие наборы данных (изображений, наборов трехмерных координат и пр.), специально разработанные учеными для этих целей. Проверка нового метода на данных является неизменным атрибутом хорошей статьи по компьютерному зрению. Поскольку для большинства задач не существует единственного оптимального решения, наборы тестовых данных создаются с учетом всего многообразия ситуаций. К примеру, для решения задачи поиска соответствующих точек на паре изображений используются геометрические искажения (поворот, сдвиг, перекос, изменение масштаба), фотометрические искажения (затемнение, пересвечивание), другие искажения (размытие, деформация), а также всевозможные комбинации искажений. В результате для вновь появляющихся алгоритмов сравнения изображений можно чётко ограничить набор условий, при которых, во-первых, новый алгоритм применим и, во-вторых, позволяет достичь более качественных результатов. Для поощрения открытости и обмена идеями в рамках конференций по компьютерному зрению и пониманию изображений периодически проводятся конкурсы. Группы ученых из разных стран соревнуются, чей алгоритм позволит лучше решить предъявленную задачу.

Алгоритмы, которые обладают устойчивостью к значительным искажениям и меняющимся факторам, принято называть робастными. Робастность следует  отнести к основному практическому  требованию при разработке алгоритмов обнаружения машинного зрения. Второе важнейшее свойство, которым должны, как правило, обладать алгоритмы  обнаружения объектов на изображениях можно определить как точную локализацию. Это понятие означает, что необходимо не только обнаружить объект, но и точно  указать в системе координат  изображения (или сцены) его положение  в каком-либо смысле. При локализации  могут возникать два вида ошибок – нормальные и аномальные. Нормальная ошибка – это правильная локализация  объекта с некоторой позиционной  или параметрической неточностью, характеризуемой количественными  оценками. К аномальным ошибкам следует  отнести ситуацию перепутывания  объектов или возникновение артефактов, что связано с фатальными количественными  ошибками позиционирования или просто ложным обнаружением. Требования по исключению или ограничению уровня аномальных ошибок составляют очень важную часть  требований к алгоритмам обнаружения.

В 1981 был создан метод отбраковки аномальных данных (выбросов) RANSAC. Его  главным достоинством является возможность  отделить ложные измерения от истинных. Идеи, лежащие в основе метода, были известны и раньше среди математиков, занимающихся статистикой, однако не получили в той области развития в силу специфики решаемых статистикой задач. В то же время, метод RANSAC получил признание среди исследователей компьютерного зрения и сейчас является одним из столпов этой дисциплины. Основная идея состоит в следующем:

  1. Из всех имеющихся измерений, большая часть из которых ошибочна, выбрать случайным образом некоторое минимальное количество.
  2. На основании небольшого количества измерений построить гипотезу (модель), наилучшим образом объясняющую эти измерения.
  3. Проверить гипотезу на ВСЕХ имеющихся измерениях. Те из них, которые плохо объясняются гипотезой, объявить ошибочными.
  4. Пройти шаги 1-3 много раз и выбрать ту гипотезу, которая в согласии с максимальным количеством измерений.

С позиций принципа фальсификации  шаг 3 кажется неправомерным, поскольку  в методе RANSAC при появлении фактов, противоречащих принятой на данный момент гипотезе отбрасываются факты, а  не гипотеза. Но следует помнить, что  мы имеем дело с ситуацией, когда  ряд измерений (фактов) опровергает  принятую гипотезу не в силу ложности гипотезы, а в силу ложности самих  фактов. Противоречие шага 3 частично устраняется  шагом 4, поскольку в качестве истинной принимается (методом голосования) та гипотеза, которая не противоречит наибольшему числу наблюдений.

Образное восприятие мира — одно из загадочных свойств живого мозга, позволяющее разобраться  в бесконечном потоке воспринимаемой информации и сохранять ориентацию в многомерном пространстве разрозненных данных о внешнем мире. Воспринимая  внешний мир, мы всегда производим классификацию  своих ощущений, то есть, разбиваем  их на группы похожих, но не тождественных  явлений. Понимая обоснованность научной  программы, предложенной Марром, стоит все же обратить внимание на некоторые её недостатки. К сожалению, компьютерному зрению еще далеко до уровня распознавания человека, точные принципы анализа визуальной информации которого до конца не изучены. Решение задачи моделирования деятельности человеческого глаза и мозга, безусловно, ответило бы на большинство вопросов в области компьютерного зрения. Однако даже предварительные оценки показывают, что решение этой задачи в реальном времени потребует огромных вычислительных затрат. Несмотря на многочисленные опыты на животных и на людях, в том числе использующим современные медицинские технологии, такие как ЯМР или ЭЭГ, ученым по-прежнему слишком мало известно о том, как функционирует зрительная система человека. Во-вторых, со времён Марра были разработаны гораздо более эффективные методы компьютерного зрения, совершенно не имеющие никаких биологических аналогов. Здесь мы приходим к важной философской проблеме искусственного интеллекта – нужно ли, и если нужно, то как и с какой целью создавать интеллект, подобный человеческому и превышающий его. Является ли Человек венцом Творенья, или же путем рационального мышления можно построить нечто более совершенное? Если создавать искусственный интеллект, или отдельные его части (например, зрительную распознающую часть), как быть с тем, что для человека этот интеллект будет «чёрным ящиком», то есть его внутренние знания будут им храниться и использоваться по неведомым человеку законам? Вопрос об имитации природы для решения задач компьютерного зрения более глубокий, чем кажется. Основной вопрос, который должен задавать себе исследователь состоит в том, нужна ли нам машина (программа), устроенная по образу и подобию человека, или же достаточно, чтобы при решении задач распознавания объектов и сцен она «лишь» действовала, как человек? Очевидно, что второе важнее, чем первое. Поэтому набор методов компьютерного зрения должен быть достаточно широким, и использовать не только готовые реализации, предоставленные Природой, но и заимствовать идеи из широкого спектра областей математики, физики и техники.

Несмотря на критику антропоцентрического подхода к изучению компьютерного  зрения, следует отметить, что большой  пласт методов действительно  перекликается с теми правилами, по которым, скорее всего, работает человеческий интеллект. К таким правилам относится  использование инвариантных представлений. Простой подсчет количества информации, содержащегося в одном фотоснимке, показывает, что памяти человека не должно хватать для запоминания  огромного количества сцен, которые  он видит ежедневно. В то же время  человек отлично запоминает информацию, причём вне зависимости от того, в каком виде она была подана. Например, человек может запомнить  мелодию и узнать её через несколько  лет, даже если она будет сыграна  на другом инструменте и в другой тональности. То же верно для визуальной информации – качество запоминания  не зависит от угла поворота, от освещённости. Все дело в том, что информация сжимается, человеческий мозг извлекает  из неё все самое (для него) релевантное. В дальнейшем, когда зрительной системе  предъявляется похожая сцена  или объект, то сравнение происходит не «пиксель-с-пикселем», а на уровне более абстрактном, то есть на уровне инвариантных представлений. Тот же подход имеет место в компьютерном зрении. Вместо того, чтобы сравнивать все изображения и все пиксели, происходит сравнение относительно компактных характеристик, в которых заключены наиболее важные (в данной задаче) свойства изображений.

В компьютерном зрении остро  стоит проблема уровня детальности  анализа, масштаба. Одно и то же изображение  может быть проанализировано по-разному  в зависимости от масштаба. К примеру, применив методы анализа «низкого уровня»  к изображению городской сцены (дома, автомобили), можно выделить трещины  на асфальте, углы окон на домах и  яркие блики от автомобильных  зеркал. Однако анализ такого уровня не даёт понимания сцены в привычном нам смысле. Методы нижнего уровня, которые рассматривают изображения лишь как совокупности элементарных единиц изображения – пикселей, не учитывают ни контекст, ни пространственные и смысловые связи между изображенными объектами. Для полноценного описания изображения на естественном языке, или хотя бы в виде набора меток, требуется провести анализ более высокого уровня, который немыслим без распознавания целых объектов. В такого рода задачах вычислительная мощность современных компьютеров, сколь высокой она ни была, не может заменить отсутствие удобного, и притом компактного, способа описания объектов. Здесь исследователи сталкиваются с фундаментальной проблемой.

Что является для наблюдателя  объектом? Это зависит от контекста, от поставленной задачи, т.е. не только от самой среды. Что значит «видеть»? Австрийский философ ХХ века Людвиг Витгенштейн в своих «Философских исследованиях» поднял вопрос о различии между «просто зрением», которое он охарактеризовал глаголом «видеть» – и «зрением-распознаванием», обозначенным им глаголом «видеть как». Машина умеет «видеть», то есть получать на канал входа видеоинформацию, обрабатывать её операторами низкого уровня (выделять края, устранять шум). Однако «видеть как», то есть вырабатывать категории объектов – очень сложная алгоритмическая задача. Изображение может не меняться, но меняется интерпретация, в зависимости от опыта и от контекста. Для разрешения дилеммы о том, что именно машина должна «видеть как» на данном изображении, недостаточно хранить большую базу изображений. Необходимо также, чтобы машина могла мыслить нечеткими категориями, предусматривать разные варианты видения. Исследования в области искусственного интеллекта, например, в области нечетких множеств и построения классификаторов, позволяют двигаться в этом направлении.

В заключение коснемся вклада компьютерного зрения в прогресс общества. Из наиболее социально-важных приложений компьютерного зрения стоит  отметить возможность трехмерной реконструкции  объектов по фотографиям. Трехмерная реконструкция  по фотографиям (или видео) стала  возможной благодаря успехам  в фотограмметрии – науке, возникшей  в середине XIX века практически одновременно с изобретением фотографии, использующей методы оптики и вычислительной геометрии. Методы компьютерного зрения хорошо зарекомендовали себя в задаче каталогизации  и сохранения культурного наследия. К примеру, группа ученых из Швейцарии  получила трехмерную модель статуи Будды  в Бамиане (Афганистан) по фотографиям. Фотографии были сделаны до того, как эта статуя была разрушена талибами. Теперь есть теоретическая возможность по архивной модели – то есть по набору измерений – воссоздать утраченную статую. Другой достойный упоминания пример – американский проект «Цифровой Микеланджело», в рамках которого создается архив трехмерных моделей скульптур. Человек всегда стремился сохранить память поколений, преемственность ценностей. Достижения компьютерного зрения позволяют человеку доверить этот процесс машине. Как и любые инновации, технические изделия и программные решения, созданные благодаря успехам компьютерного зрения, несут в себе и выгоды и опасности. Следует обратить внимание на этические аспекты компьютерного зрения. В частности, для предотвращения противоправных действий и для осуществления контроля доступа, широкое распространение получило видеонаблюдение и связанные с ним задачи идентификации человека. Зачастую видеонаблюдение производится без согласия человека и без его ведома. Система, оснащенная видеокамерой и специальным программным обеспечением, осуществляет распознавание человека, сравнение его биометрических характеристик с имеющимися в базе данных и, если необходимо, заносит информацию о человеке в базу данных. Несмотря на то, что техника сама по себе этически нейтральна, её использование может нанести вред человеку и обществу. Разработчики систем видеонаблюдения обязаны учитывать как технические требования к системам, так и необходимость предотвращения несанкционированного вторжения в частную жизнь человека. В связи с этим, ряд систем видеонаблюдения оснащен защитой, не позволяющей оператору получать доступ к конфиденциальной информации о попавших в кадр людях. Информация хранится в зашифрованном виде и доступ к ней осуществляется согласно предписанному протоколу.

Одной из целей компьютерного  зрения является описание окружающего  нас мира по имеющимся изображениям. Уровень современной техники  позволяет вместе с изображением сохранять массу полезной информации, такой как географические координаты того места, в котором сделан фотоснимок, время суток, азимут. Подобно тому, как энциклопедии являются хранилищем слов и понятий, сейчас в сети Интернет существует множество хранилищ изображений, огромное количество которых проаннотировано  пользователями. В идеале каждое изображение  должно быть описано набором ключевых слов, позволяющих человеку понять, что именно изображено на снимке, а  компьютеру – найти по этим словам наиболее релевантную информацию (например, схожие снимки). На деле задача описания изображений отдана на откуп пользователю. В связи с этим большинство  изображений в сети Интернет всё-таки не аннотированы, либо, в связи с  неоднозначностью языка, аннотации (метки) неточны. Возникает задача автоматического  аннотирования, которая опять-таки неразрывно связана с анализом изображения  и его «пониманием».

Информация о работе Компьютерное зрение