Автор работы: Пользователь скрыл имя, 05 Ноября 2012 в 20:38, курс лекций
Лекция 1. Введение. Основные понятия, связанные с информационными системами 3
Лекция 2. Общая функциональность информационных систем 9
Лекция 4. Архитектуры и администрирование информационных систем 19
Лекция 5. Резервное копирование 24
Лекция 7. Основы теории информационного поиска 29
Лекция 8. Предкоординированные ИПС 34
Лекция 9. Словарные ИПС 39
Лекция 10. Стратегия поиска: использование нескольких источников 43
Документальные информационные системы хранят слабо структурированную информацию. Запись документальной информационной системы обычно соответствует привычному текстовому документу, хотя может содержать и некоторое количество полей типа тех, которые используются в объектографической ИС, например, дату создания документа или его тип (статья, закон, стихи ...). Такие поля соответствуют формальным атрибутам документа. Примеры документальных информационных систем: библиотечный каталог с аннотациями; полнотекстовая ИС типа Yandex или Google.
Поиск в документальных информационных системах так же, как и в объектографических ИС, осуществляется по сочетаниям локальных критериев, однако эти критерии применяются не к документу, как к целому, а к некоторой функции документа, называемой поисковым образом документа (ПОД). Документальные информационные системы, как правило, отличаются непредсказуемым разнообразием поисковых задач, для которых, как мы увидим в дальнейшем, полнота («найти все документы») и точность («найти только требуемые документы») недостижимы и/или несовместимы.
В качестве среды хранения документальные информационные системы используют информационно-поисковые среды с индексами в виде инвертированных файлов, о строении которых мы поговорим в следующих лекциях.
Документальные информационные системы тесно связаны с процессами поиска слабо структурированной информации. Поэтому нам предстоит познакомиться с этими процессами и понять, как они влияют на архитектуры документальных информационных систем. Поскольку в подсистемы хранения и поиска в документальных информационных системах — наиболее сложные и важные из подсистем, и реализованы они с применением документальных информационно-поисковых систем, я буду использовать оба термина (документальные информационные системы и информационно-поисковые системы) как эквивалентные. Это не совсем строго, но позволяет сосредоточиться на основных проблемах архитектуры документальных информационных систем.
Поиск информации — задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.
Сначала эти средства совершенствовались в каталогах и информационных отделах крупных библиотек. В 70-е годы XX века появились базы данных, доступ к которым сначала обеспечивался через модемное подключение, а затем по протоколу telnet через Интернет. Стоимость работы с такими базами данных весьма велика. Например, одна минута работы с базой данных DIALOG (www.dialog.com) может стоить доллар (в зависимости от раздела базы), а вывод на экран одного элемента найденной записи (из, например, 70) — 20 центов. Такая высокая стоимость поиска информации потребовала создания эффективных приемов поиска.
Исследования по методам поиска информации публикуются в научных журналах. В нашей стране — в журнале "Научная и техническая информация" (НТИ), в США — в Journal of American Society of Information Systems (JASIS).
Все найденные за много лет средства и приемы поиска информации реализованы в документальных поисковых системах, применяемых для поиска информации в Интернете, таких, как Yahoo!, Google, Апорт, Яндекс или Рамблер, которые мы для краткости будем называть ИПС Интернета.
Библиотеки используют, в основном, три вида каталогов: алфавитные, систематические и предметные. ИПС Интернета, при всем их внешнем разнообразии, также попадают в один из этих классов. Причина этого — общие законы, управляющие поиском информации. Поэтому познакомимся сначала с тем, как устроены абстрактные алфавитные (словарные), систематические и предметные ИПС. А для этого придется познакомиться еще и с некоторыми терминами из теории информационного поиска.
Итак, автор(ы) создает(ют) документ(ы). А у нас (у вас) возникает информационная потребность — отыскать документ (или документы), содержащие какие-то необходимые нам сведения. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами — говорят, что информационная потребность, вообще говоря, невербализуема. Информационная потребность выражается только в оценке просматриваемых документов — подходит или не подходит. В теории информационного поиска вместо слова «подходит» используют термин пертинентный документ, а вместо «не подходит» — непертинентный. Слово «пертинентный» происходит от английского “pertinent”, что значит «относящийся к делу, подходящий по сути».
Рис. 16. Информационная потребность существует только в мыслях пользователя
Субъективно понимаемая цель информационного поиска — найти все пертинентные и только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше», такой поиск называется исчерпывающим). Для сколько-нибудь больших документальных информационных систем эта цель недостижима.
Действительно, для того, чтобы решить, является ли документ пертинентным, необходимо просмотреть этот документ и сделать его оценку. Известно, что специалист в состоянии просмотреть с оценкой за один сеанс просмотра не более 50—100 документов, что явно намного порядков меньше, чем то количество документов, которое содержится в любой из современных ИПС.
Информационная потребность
Рассмотрение поиска в документальных
информационно-поисковых
Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами (конечно, если цель нашего поиска — редактор для Quake, а попался документ с кулинарным рецептом, то он явно непертинентен, но принять решение о пертинентности документа так просто удается далеко не всегда). Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются — «шум» (или информационный шум). Слишком большой шум затрудняет выделение пертинентных документов, слишком малый — не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов — удовлетворительно.
Поскольку задача исчерпывающего поиска неразрешима, то человечество задумалось над «средствами механизации» поиска, которые позволяли бы решать поисковые задачи в удовлетворительном приближении. Такие «средства механизации» вынуждены работать с тем «материалом», который присутствует в слабо структурированной информации — словами естественного языка. Использование слов в том виде, в котором они присутствуют в документах, неэффективно — ведь в таком случае информационно-поисковая система вынуждена была бы просматривать документы один за другим — почти так же, как это делает человек. Хотя ИПС может просматривать документы очень быстро, но в тех случаях, когда количество документов достигает сотен тысяч (как в юридических ИПС) или миллиардов (как в ИПС Интернета), прямой «механический» просмотр всех документов требует значительного времени. Поэтому ИПС почти никогда не работают непосредственно с исходными документами. Вместо исходных документов ИПС используют их представления — т.н. поисковые образы документов (ПОД). Преобразование документа в его ПОД в различных ИПС происходит по-разному. Ниже при обсуждении различных типов документальных ИС мы рассмотрим процессы формирования ПОД для них.
С другой стороны, и общение пользователя (пытающегося с помощью ИПС удовлетворить свою информационную потребность) с ИПС также не является простым процессом. Обращение к ИПС с запросом на поиск обычно не может быть реализовано с помощью экрана (бланка) запроса, содержащего набор простых локальных критериев. Ведь слов в документах много, и лобовой подход, объявляющий каждое слово объектом такого локального критерия потребовал бы столько полей ввода в экране запроса, сколько присутствует отдельных слов в самом большом документе, хранимом документальной ИС.
Рис. 17. Запрос к ИПС и ответ ИПС
Зачастую вместо экранов запросов (и/или вместе с экранами запросов) документальные информационные системы используют языки запросов (информационно-поисковые языки, ИПЯ), и для общения с ИПС информационная потребность должна быть выражена средствами, которые эта ИПС «понимает» — должен быть сформулирован запрос на формальном входном языке запросов ИПС.
В ответ на запрос ИПС передает отчет — список найденных документов, так или иначе идентифицирующий эти документы.
Запрос редко может точно выразить информационную потребность — ведь информационная потребность невербализуема, а запрос, как правило, требуется писать на формальном языке.
Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу — ведь они работают не с самими документами, а с их ПОДами. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот.
Пример
Известна (американская) ИПС, которая на запрос, состоящий из единственного слова “Russia” (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово “Gagarin”. Этот документ нерелевантен, но пертинентен для массовой американской аудитории.
В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова «кошка», почти в любой ИПС даст массу релевантных, но непертинентных документов.
Введем некоторые формальные определения. Пусть
Δ — множество документов, ПОДы которых представлены в документальной ИС;
π — общее количество пертинентных документов в Δ; обычно π много меньше, чем D — общее количество документов, ПОДы которых представлены в документальной ИС;
F — количество найденных по определенному запросу документов;
P — количество найденных пертинентных документов, P<F; P≤π;
Полнота (recall) задается отношением
Точность (precision) информационного поиска задается отношением
Шум (noise) — это величина, дополнительная к точности:
Для широкого класса ИПС и запросов к ним имеет место (полученное по результатам многочисленных экспериментов) соотношение дополнительности:
Таким образом, если по каким-то причинам требуется произвести более или менее исчерпывающий поиск (обеспечить его высокую полноту), то придется мириться с высоким шумом (низкой точностью поиска).
Сказанное можно проиллюстрировать двумя модельными ситуациями поиска. В первой ситуации найден один-единственный пертинентный документ. В этом случае точность p=1, а шум n=0. Но и полнота r, видимо, близка к нулю, поскольку многие из присутствующих в ИС пертинентных документов не найдены. В качестве другой модельной ситуации будем рассматривать все множество Δ как результат поиска. Тогда, напротив, шум, как правило, велик (в этом случае точность p=π/D почти равна 0), а полнота равна 1.
Реальные ситуации документального
поиска располагаются между
Почти очевидно, что слова в документах, создаваемых людьми, встречаются вовсе не в случайном порядке, и этот факт, видимо, можно использовать при разработке информационно-поисковых систем. Слова (строго говоря, лексические единицы) текста документа образуют друг с другом устойчивые сочетания, имеющие определенное смысловое содержание. Такие сочетания лексических единиц называют терминами. Термин обычно означает некоторое понятие. Одно и то же понятие может быть обозначено различными терминами («компьютер» ~ «электронная вычислительная машина»); в таком случае говорят о синонимии терминов.
Пространственные (текстуальные) связи лексических единиц, образующие термин, называются отношением координации. Термины, в свою очередь, также могут находиться друг с другом в отношениях координации, образуя новые термины, обозначающие более общие понятия.
В процессе информационного поиска человек явно или неявно осуществляет координацию лексических единиц и терминов оцениваемых документов. Поэтому уже в начале XX века возникла идея использовать предварительную (до поиска) координацию терминов (тогда бумажных) документов, осуществляемую обученными специалистами. Результаты такой координации — поисковые образы документов, состоящие только из терминов. В результате в библиотеках возникли сначала предметные, а затем и систематические каталоги. Аналоги этих типов каталогов встречаются в Интернете и других документальных информационных системах. Такого рода документальные информационно-поисковые системы называются ИПС с предкоординацией терминов (или просто ИПС с предкоординацией — ИПС с предкоординированными ИПЯ — предкоординированные ИПС).
Можно, однако, возложить всю работу
по координации на того, кто ищет,
предоставив ей/ему
Рассмотрению особенностей пред- и посткоординированных ИПС посвящены следующие лекции.
Информация о работе Информационные системы: Общие характеристики информационных систем