Автор работы: Пользователь скрыл имя, 09 Мая 2012 в 22:16, доклад
Компьютерное зрение — теория и технология создания машин, которые могут производить обнаружение, слежение и классификацию объектов.
Как научная дисциплина, компьютерное зрение относится к теории и технологии создания искусственных систем, которые получают информацию из изображений.
Компьютерное зрение — теория и технология создания машин, которые могут производить обнаружение, слежение и классификацию объектов.
Как научная дисциплина, компьютерное
зрение относится к теории и технологии
создания искусственных систем, которые
получают информацию из изображений. Видеоданные
могут быть представлены множеством
форм, таких как
Как технологическая дисциплина, компьютерное зрение стремится применить теории и модели компьютерного зрения к созданию систем компьютерного зрения.
Удивительная сложность проблемы "понимания изображений" может быть объяснена тем обстоятельством, что её интеллектуальная (алгоритмическая) составляющая оказалась во многом более сложной, чем традиционные задачи типа компьютерной игры в шашки или шахматы, которые долгие годы служили полем приложения методов "искусственного интеллекта". Это связано со сложностью основного предмета, находящегося в центре внимания данной дисциплины, а именно – двумерного изображения. Скорее правилом, чем исключением является отсутствие у информационного семантического содержания изображения какой либо "причинной" или динамической модели формирования, в том смысле, что это информационное семантическое содержание возникает не под действием каких-либо физических законов, описывающихся математическими уравнениями. Информационное наполнение изображения проявляется в виде бесконечного разнообразия яркостно-геометрических структур, модели порождения которых могут просто отсутствовать. Особенно сложной задачей является "понимание" объектов, присутствующих в сцене наблюдения. Обнаружение и идентификация многих типов таких объектов, например, зданий и дорог на аэрофотоснимках превратились даже в отдельные направления исследований. Таким образом следует признать, что общая теория "понимания изображений" за последние 30-40 лет ещё не вышла из начального возраста, и то её состояние, которое может быть зафиксировано сегодня - это сочетание ряда нерешенных к настоящему моменту теоретических задач, с одной стороны, и большого числа идей и подходов, далеких от окончательного вида хорошо разработанной теории.
В то же время для решения многих практически важных задач компьютерного зрения общая проблема "понимания изображений" может быть редуцирована к гораздо более простой и ясной проблеме обнаружения и распознавания или измерения по одному или нескольким изображениям объектов, удовлетворяющих некоторому, заранее известному модельному описанию. Теория компьютерного зрения предлагает целый ряд различных модельных описаний наблюдаемых объектов, которые могут быть использованы для их обнаружения и измерения. В литературе описан широкий спектр таких моделей – от простейших признаковых описаний до высоко специализированных и изощренных структурных моделей. Однако общий метод составления работоспособных моделей по вышеупомянутым причинам отсутствует. Мир реальных объектов, в отличие от идеального «мира многогранников», построенного Робертсом ещё в 1960-е годы, демонстрирует чрезвычайную изменчивость входных изображений. Поэтому необходимо разрабатывать всё более совершенные компьютерные алгоритмы для вычисления «сущности», инвариантных признаков объектов. Отсюда следует, что разработка и использование моделей, пригодных для эффективного решения задачи обнаружения соответствующих объектов, в значительной степени остается на грани науки и искусства, т.е. требует особого знания предметной области, отражающего многолетний опыт исследований по решению частных задач.
Методологические проблемы компьютерного зрения связаны с рядом требований к алгоритмам. Рассмотрим их на примере наиболее специфической группы алгоритмов – алгоритмов обнаружения объектов на изображениях. Итак, разрабатываемые алгоритмы, решающие прикладные задачи машинного зрения, должны работать на реальных изображениях. Вид объекта на изображении может значительно меняться. Факторами, влияющими на процесс обнаружения, могут быть и шумовые эффекты, имеющие десятки видов источников возникновения, и сложный текстурированный фон, и загораживание одних объектов другими. Кроме того, изображение может сильно меняться в зависимости от освещения, особенно в динамически меняющихся сценах.
Отсутствие формализованного
описания ключевых факторов, вносящих
неопределенность в процесс обработки,
приводит к тому, что говорить о
существовании единственного
Алгоритмы, которые обладают
устойчивостью к значительным искажениям
и меняющимся факторам, принято называть
робастными. Робастность следует
отнести к основному
В 1981 был создан метод отбраковки аномальных данных (выбросов) RANSAC. Его главным достоинством является возможность отделить ложные измерения от истинных. Идеи, лежащие в основе метода, были известны и раньше среди математиков, занимающихся статистикой, однако не получили в той области развития в силу специфики решаемых статистикой задач. В то же время, метод RANSAC получил признание среди исследователей компьютерного зрения и сейчас является одним из столпов этой дисциплины. Основная идея состоит в следующем:
С позиций принципа фальсификации шаг 3 кажется неправомерным, поскольку в методе RANSAC при появлении фактов, противоречащих принятой на данный момент гипотезе отбрасываются факты, а не гипотеза. Но следует помнить, что мы имеем дело с ситуацией, когда ряд измерений (фактов) опровергает принятую гипотезу не в силу ложности гипотезы, а в силу ложности самих фактов. Противоречие шага 3 частично устраняется шагом 4, поскольку в качестве истинной принимается (методом голосования) та гипотеза, которая не противоречит наибольшему числу наблюдений.
Образное восприятие мира — одно из загадочных свойств живого мозга, позволяющее разобраться в бесконечном потоке воспринимаемой информации и сохранять ориентацию в многомерном пространстве разрозненных данных о внешнем мире. Воспринимая внешний мир, мы всегда производим классификацию своих ощущений, то есть, разбиваем их на группы похожих, но не тождественных явлений. Понимая обоснованность научной программы, предложенной Марром, стоит все же обратить внимание на некоторые её недостатки. К сожалению, компьютерному зрению еще далеко до уровня распознавания человека, точные принципы анализа визуальной информации которого до конца не изучены. Решение задачи моделирования деятельности человеческого глаза и мозга, безусловно, ответило бы на большинство вопросов в области компьютерного зрения. Однако даже предварительные оценки показывают, что решение этой задачи в реальном времени потребует огромных вычислительных затрат. Несмотря на многочисленные опыты на животных и на людях, в том числе использующим современные медицинские технологии, такие как ЯМР или ЭЭГ, ученым по-прежнему слишком мало известно о том, как функционирует зрительная система человека. Во-вторых, со времён Марра были разработаны гораздо более эффективные методы компьютерного зрения, совершенно не имеющие никаких биологических аналогов. Здесь мы приходим к важной философской проблеме искусственного интеллекта – нужно ли, и если нужно, то как и с какой целью создавать интеллект, подобный человеческому и превышающий его. Является ли Человек венцом Творенья, или же путем рационального мышления можно построить нечто более совершенное? Если создавать искусственный интеллект, или отдельные его части (например, зрительную распознающую часть), как быть с тем, что для человека этот интеллект будет «чёрным ящиком», то есть его внутренние знания будут им храниться и использоваться по неведомым человеку законам? Вопрос об имитации природы для решения задач компьютерного зрения более глубокий, чем кажется. Основной вопрос, который должен задавать себе исследователь состоит в том, нужна ли нам машина (программа), устроенная по образу и подобию человека, или же достаточно, чтобы при решении задач распознавания объектов и сцен она «лишь» действовала, как человек? Очевидно, что второе важнее, чем первое. Поэтому набор методов компьютерного зрения должен быть достаточно широким, и использовать не только готовые реализации, предоставленные Природой, но и заимствовать идеи из широкого спектра областей математики, физики и техники.
Несмотря на критику антропоцентрического
подхода к изучению компьютерного
зрения, следует отметить, что большой
пласт методов действительно
перекликается с теми правилами,
по которым, скорее всего, работает человеческий
интеллект. К таким правилам относится
использование инвариантных представлений.
Простой подсчет количества информации,
содержащегося в одном
В компьютерном зрении остро стоит проблема уровня детальности анализа, масштаба. Одно и то же изображение может быть проанализировано по-разному в зависимости от масштаба. К примеру, применив методы анализа «низкого уровня» к изображению городской сцены (дома, автомобили), можно выделить трещины на асфальте, углы окон на домах и яркие блики от автомобильных зеркал. Однако анализ такого уровня не даёт понимания сцены в привычном нам смысле. Методы нижнего уровня, которые рассматривают изображения лишь как совокупности элементарных единиц изображения – пикселей, не учитывают ни контекст, ни пространственные и смысловые связи между изображенными объектами. Для полноценного описания изображения на естественном языке, или хотя бы в виде набора меток, требуется провести анализ более высокого уровня, который немыслим без распознавания целых объектов. В такого рода задачах вычислительная мощность современных компьютеров, сколь высокой она ни была, не может заменить отсутствие удобного, и притом компактного, способа описания объектов. Здесь исследователи сталкиваются с фундаментальной проблемой.
Что является для наблюдателя объектом? Это зависит от контекста, от поставленной задачи, т.е. не только от самой среды. Что значит «видеть»? Австрийский философ ХХ века Людвиг Витгенштейн в своих «Философских исследованиях» поднял вопрос о различии между «просто зрением», которое он охарактеризовал глаголом «видеть» – и «зрением-распознаванием», обозначенным им глаголом «видеть как». Машина умеет «видеть», то есть получать на канал входа видеоинформацию, обрабатывать её операторами низкого уровня (выделять края, устранять шум). Однако «видеть как», то есть вырабатывать категории объектов – очень сложная алгоритмическая задача. Изображение может не меняться, но меняется интерпретация, в зависимости от опыта и от контекста. Для разрешения дилеммы о том, что именно машина должна «видеть как» на данном изображении, недостаточно хранить большую базу изображений. Необходимо также, чтобы машина могла мыслить нечеткими категориями, предусматривать разные варианты видения. Исследования в области искусственного интеллекта, например, в области нечетких множеств и построения классификаторов, позволяют двигаться в этом направлении.
В заключение коснемся вклада компьютерного зрения в прогресс общества. Из наиболее социально-важных приложений компьютерного зрения стоит отметить возможность трехмерной реконструкции объектов по фотографиям. Трехмерная реконструкция по фотографиям (или видео) стала возможной благодаря успехам в фотограмметрии – науке, возникшей в середине XIX века практически одновременно с изобретением фотографии, использующей методы оптики и вычислительной геометрии. Методы компьютерного зрения хорошо зарекомендовали себя в задаче каталогизации и сохранения культурного наследия. К примеру, группа ученых из Швейцарии получила трехмерную модель статуи Будды в Бамиане (Афганистан) по фотографиям. Фотографии были сделаны до того, как эта статуя была разрушена талибами. Теперь есть теоретическая возможность по архивной модели – то есть по набору измерений – воссоздать утраченную статую. Другой достойный упоминания пример – американский проект «Цифровой Микеланджело», в рамках которого создается архив трехмерных моделей скульптур. Человек всегда стремился сохранить память поколений, преемственность ценностей. Достижения компьютерного зрения позволяют человеку доверить этот процесс машине. Как и любые инновации, технические изделия и программные решения, созданные благодаря успехам компьютерного зрения, несут в себе и выгоды и опасности. Следует обратить внимание на этические аспекты компьютерного зрения. В частности, для предотвращения противоправных действий и для осуществления контроля доступа, широкое распространение получило видеонаблюдение и связанные с ним задачи идентификации человека. Зачастую видеонаблюдение производится без согласия человека и без его ведома. Система, оснащенная видеокамерой и специальным программным обеспечением, осуществляет распознавание человека, сравнение его биометрических характеристик с имеющимися в базе данных и, если необходимо, заносит информацию о человеке в базу данных. Несмотря на то, что техника сама по себе этически нейтральна, её использование может нанести вред человеку и обществу. Разработчики систем видеонаблюдения обязаны учитывать как технические требования к системам, так и необходимость предотвращения несанкционированного вторжения в частную жизнь человека. В связи с этим, ряд систем видеонаблюдения оснащен защитой, не позволяющей оператору получать доступ к конфиденциальной информации о попавших в кадр людях. Информация хранится в зашифрованном виде и доступ к ней осуществляется согласно предписанному протоколу.
Одной из целей компьютерного зрения является описание окружающего нас мира по имеющимся изображениям. Уровень современной техники позволяет вместе с изображением сохранять массу полезной информации, такой как географические координаты того места, в котором сделан фотоснимок, время суток, азимут. Подобно тому, как энциклопедии являются хранилищем слов и понятий, сейчас в сети Интернет существует множество хранилищ изображений, огромное количество которых проаннотировано пользователями. В идеале каждое изображение должно быть описано набором ключевых слов, позволяющих человеку понять, что именно изображено на снимке, а компьютеру – найти по этим словам наиболее релевантную информацию (например, схожие снимки). На деле задача описания изображений отдана на откуп пользователю. В связи с этим большинство изображений в сети Интернет всё-таки не аннотированы, либо, в связи с неоднозначностью языка, аннотации (метки) неточны. Возникает задача автоматического аннотирования, которая опять-таки неразрывно связана с анализом изображения и его «пониманием».