Автор работы: Пользователь скрыл имя, 05 Ноября 2012 в 20:38, курс лекций
Лекция 1. Введение. Основные понятия, связанные с информационными системами 3
Лекция 2. Общая функциональность информационных систем 9
Лекция 4. Архитектуры и администрирование информационных систем 19
Лекция 5. Резервное копирование 24
Лекция 7. Основы теории информационного поиска 29
Лекция 8. Предкоординированные ИПС 34
Лекция 9. Словарные ИПС 39
Лекция 10. Стратегия поиска: использование нескольких источников 43
Предметная ИПС устроена наиболее просто. На основе анализа взаимной встречаемости терминов формируется список «предметов», о которых говорится в документах. Предмет, как правило, является достаточно абстрактным понятием. Предметом может быть что-нибудь вещественное, например, «яблоко» (на самом деле, абстрактное яблоко, представляющее собой — как термин — некоторое множество некоторых аспектов реальных яблок), но может быть и нечто невещественное, например, «индийская музыка». С названием предмета связываются списки соответствующих документов.
Это особенно удобно, если полный перечень предметов невелик — предметная ИПС представляет собой «полки», на которых лежат ссылки на ресурсы, относящиеся к названию полки («предмету»):
Предметная ИПС
--------------
|
|------- Абажуры
|
|------- Бублики
|
|------- Индийская музыка
|
|------- Куклы
|
|------- Музыка
|
|------- Программирование на языке Perl
|
|------- Яблоки
|
|------- Яблони
Такие «полки» с названиями предметов называются предметными рубриками, а сам перечень предметных рубрик — рубрикатором. Предметная рубрика предкоординированной ИПС, кроме названия предмета, может содержать перечни координированных лексических единиц и терминов, отражающих содержание понятия, описываемого этой рубрикой.
Предметные каталоги появились в библиотеках в начале XX века и продолжают развиваться. В настоящее время предметные каталоги крупных библиотек (например, Российской национальной библиотеки в Санкт-Петербурге) насчитывают 20—30 и более тысяч предметных рубрик. Прямой ручной переборный поиск в таких списках рубрик невозможен, поэтому все мало-мальски значительные по размерам предметные ИПС оснащаются дополнительным поисковым аппаратом (например, посткоординированной ИПС, в которой документами являются названия предметных рубрик, а в бумажных каталогах библиотек — хотя бы так называемым алфавитным ключом, указывающим, в каком ящике искать рубрики, названия которых начинаются на определенную букву).
При создании предметной ИПС всегда встают два основных вопроса:
В библиотеках для решения этих вопросов создаются специальные группы сотрудников, называемые «комиссией по предметизации». Фактически эти группы являются авторами предметных ИПС. Кроме описания решений, принятых по приведенным выше вопросам, комиссия по предметизации разрабатывает инструкции, пользуясь которыми другие сотрудники библиотеки (работники отдела предметизации, предметизаторы) и осуществляют предметизацию — приписывание документам предметных рубрик.
В результате функционирование предметной ИПС можно представить схемой (Рис. 18).
Рис. 18 . Схема функционирования предметной ИПС
Обратим внимание на то, что на этой схеме присутствуют, кроме авторов документов и пользователя ИПС, еще две группы людей: разработчики рубрикатора и предметизаторы. Культуры, в которые погружены эти группы людей, зачастую отличаются друг от друга и от культур авторов и пользователей ИПС.
Работа предметизатора также включает оценку (к какой предметной рубрике отнести документ — в соответствии с содержание его текста). Если предметизаторы (принадлежа к другим культурам, нежели культура разработчиков рубрикатора) не следуют строго инструкции по предметизации, то документы оказываются приписанными к иным, чем предполагалось, рубрикам.
Если пользователь не понимает, как устроена культура разработчиков рубрикатора, он не в состоянии обратиться к той предметной рубрике, которая должна содержать документы, пертинентные его информационной потребности. Ниже (при рассмотрении классификационных ИПС) мы увидим подобные примеры. Вековая история использования предметных каталогов в библиотеках позволила выработать два приема, позволяющие в этом случае смягчить проблему межкультурной коммуникации. Эти приемы называются отсылкой и ссылкой.
Если комиссия по предметизации полагает, что в культурах пользователей существуют синонимичные названия предметов («компьютер» ~ «электронная вычислительная машина»), то в рубрикатор вносятся оба этих названия, однако все документы, релевантные данному предмету, приписываются только к одной из рубрик. Вторая остается пустой, в нее помещается текст «См. (смотри) <имя наполненной рубрики>» — отсылка.
Зачастую, однако, в рубрикаторе присутствуют близкие по значению или как-то иначе связанные предметные рубрики. В этом случае используется ссылка — «См. также <имя наполненной рубрики>»
В середине 90-х годов XX века Web-мастера, занимающиеся, как они считали, одним предметом, начали ставить на своих сайтах ссылки на сайты коллег, создавая кольцевые ссылочные структуры (Рис. 19).
Рис. 19. Веб-кольцо — кольцевая ссылочная структура
В июне 1995 г. появился сайт WebRing [http://www.webring.org], объединивший несколько колец. В настоящее время на этом сайте "присутствуют" более 50 тыс. колец, которые в общей сложности включают более 900 000 сайтов, т.е. средний размер кольца — около 18 сайтов. Есть, однако, и кольца-гиганты, содержащие тысячи сайтов. Участники таких колец используют не только двусторонние ссылки (как показано на рисунке), но и ссылки «через сайт» и случайные ссылки, генерируемые программным образом.
Понятно, что найти нужный предмет интереса при большом количестве предметов непросто. WebRing обзавелся собственными вспомогательными ИПС — классификационной и словарной, помогающими найти название предмета.
Поскольку предметные рубрики WebRing не были разработаны какой-либо организацией, а процесс предметизации в WebRing стихиен, то межкультурные проблемы сказались на этой ИПС самым существенным образом. Существует множества непересекающихся веб-колец с идентичной тематикой — их авторы по каким-то причинам не желают взаимодействовать друг с другом. Некоторые тематики (например, классическая музыка) представлена на WebRing весьма ограниченно, а многие другие (зачастую, маргинальные, например, рокеры) — очень широко. Это явление связано с уровнем активности соответствующей культурной группы. И, конечно, основной язык представленных на WebRing сайтов — английский.
В силу сказанного, WebRing обладает ограниченной ценностью как поисковая ИПС Всемирной паутины.
В классификационных ИПС
Рис. 1 Классификационная ИПС — продукт взаимодействия многих культур
Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС — систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора (рубрикам) эти документы соответствуют.
Классический пример классификационной ИПС — Yahoo (www.yahoo.com). Едва появившись, быстро завоевала признание качественной проработкой классификатора. Сейчас в Yahoo работают более 100 систематизаторов.
Классификационные ИПС обладают рядом специфических недостатков. Уже разработка классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Например, сравнивая классификаторы многих ИПС Интернета (таких, как Yahoo, Lycos, Look Smart), замечаем, что во многих из них нет раздела "Наука". Любая оценка является социальным действием; она связана с обществом, культурой, социальной группой, к которым принадлежит человек, выносящий оценку. Поэтому уже классификаторы, созданные разными коллективами в разных странах, могут иметь весьма различную степень полезности при поиске информации — все зависит от того, кто и что ищет. Но в создании классификационных ИПС участвуют еще и коллективы систематизаторов, также выносящих свои оценки о соответствии документов разделам классификатора.
Таким образом, при поиске информации с помощью классификационных ИПС возникает необходимость взаимодействия с другими культурами — культурами авторов, создателей классификаторов и систематизаторов.
Это непростая задача. Существует профессия, решающая эту задачу — переводчики. Хороший переводчик переводит не только слова, но и то, что называется "культурные реалии". В случае информационного поиска соответствующий профессионал называется "ИНФОРМАЦИОННЫЙ БРОКЕР". Он владеет когнитологическими методиками, знает, как устроены классификаторы и как их интерпретируют систематизаторы. Эти знания позволяют информационному брокеру в беседе с вами изучить вашу информационную потребность и превратить ее в запрос. В библиотеках такие "информационные брокеры" работают в информационных и библиографических отделах. Информационные брокеры Интернет у нас в стране уже встречаются, хотя пока еще редко.
Библиографы, понимая, что читатели не всегда глубоко изучают классификации, положенные в основу систематических каталогов, выработали два приема, облегчающие жизнь читателям. Эти приемы носят название "ОТСЫЛКА" и "ССЫЛКА", и оба они применяются создателями классификационных ИПС Интернета.
Эти приемы используются в ситуации, когда документ может быть отнесен к одному из нескольких разделов классификатора, а лицо, осуществляющее поиск (поисковик), может не знать, к какому именно разделу.
Отсылка используется тогда, когда создатели классификатора и систематизаторы в состоянии принять четкое решение об отнесении документа к одному из разделов классификатора, а поисковик с определенной вероятностью в поисках этого документа придет в другой раздел. Тогда в этом другом разделе помещается отсылка ("См.") в тот раздел классификатора, в котором действительно размещена информация о документах данного типа.
Например, информация о картах стран может быть размещена в разделах "Наука · География · Страна", "Экономика · География · Страна" или "Справочники · Карты · Страна". Принимается решение, что карты стран помещаются во второй раздел: "Экономика · География · Страна"; тогда в остальные два раздела помещаются отсылки в него. Этот прием активно используется в ИПС Yahoo (отсылка обозначается в ней знаком @).
Ссылка ("См. также") используется в менее однозначной ситуации, когда даже создатели классификатора и систематизаторы не в состоянии принять четкого решения об отнесении документов к определенному разделу классификатора. В ИПС Интернет ссылка принимает разнообразные формы ("Relevant servers", "Похожие документы" и т.п.).
Классификационных ИПС в Интернет много. Большие классификационные ИПС (американская Yahoo, европейская EuroSeeek, российские Aport.Ru и List.Ru) используют вспомогательные словарные ИПС по собственным рубрикам (аналоги библиотечных алфавитных указателей). Другие классификационные ИПС просто существуют совместно с ИПС словарного типа (Excite, Lycos, Aport.Ru, AltaVista).
Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС — создать словарь из слов, встречающихся в документах Интернета, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов.
К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в конце 40-х годов нашего века. К тому же наиболее употребительные слова — это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь одной из самых крупных словарных ИПС Интернета — AltaVista — имеет объем всего лишь несколько Гбайт.
Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро — без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими списками — их слияние, пересечение или вычитание (для наглядности списки документов изображены в виде овалов):
Рис. 2 Логические операции с множествами
документов,
выполняемые словарными ИПС
Вместо того, чтобы говорить "Список документов содержащих слово 'стол' или документов, содержащих слово 'стул'", употребляются сокращенные выражения, приведенные на предыдущем рисунке. Дальнейшее сокращение эти выражения находят в языке запросов словарных ИПС: вместо "Найти список документов содержащих слово 'стол' или документов, содержащих слово 'стул'", большинству словарных ИПС достаточно написать что-то вроде
стол ИЛИ стул
Союз ИЛИ в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логических оператора: ИЛИ, И и И-НЕ ("но без"); как правило, эти операторы обозначаются одним из следующих способов:
Оператор |
Полное |
Сокращенное |
Обозначение при простом
поиске |
ИЛИ |
OR |
| |
пробел |
И |
AND |
& |
+ (знак "плюс") |
И-НЕ |
AND NOT |
! или &! или !& |
- (знак минус) |
Информация о работе Информационные системы: Общие характеристики информационных систем