Автор работы: Пользователь скрыл имя, 05 Ноября 2012 в 20:38, курс лекций
Лекция 1. Введение. Основные понятия, связанные с информационными системами 3
Лекция 2. Общая функциональность информационных систем 9
Лекция 4. Архитектуры и администрирование информационных систем 19
Лекция 5. Резервное копирование 24
Лекция 7. Основы теории информационного поиска 29
Лекция 8. Предкоординированные ИПС 34
Лекция 9. Словарные ИПС 39
Лекция 10. Стратегия поиска: использование нескольких источников 43
Эти операторы имеют приоритет (прежде всего выполняется И-НЕ, затем — И, и лишь потом — ИЛИ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляют лишь ИПС Go.Com и Google, которые вместо скобок применяют другие обозначения). Как правило, словарные ИПС Интернета предоставляют пользователям два интерфейса — режим "сложного запроса" ("advanced search"), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания операторов.
Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова "стол" и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так:
стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом
Хорошо, что это только одно слово, но писать такое уже довольно тоскливо.
Западные ИПС, ориентированные на английский язык, предлагают простое решение: вместо слова можно написать его начало, заменив изменяемую часть звездочкой:
стол*
Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть обозначение "стол*" язык не поворачивается, поэтому для таких частей логических выражений запросов используется название ТЕРМИН.
Запрос
стол*
отыщет и документы со словами "столовая", "столешница", "столоначальник" и даже "столб". Такое явление — искусственная синонимия — может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее.
От чего пытались убежать, переходя
от использования
Для устранения искусственной синонимии необходимо читать найденные документы, которые образуют информационный шум, определять в них те термины, которые являются порожденными нами искусственными синонимами, и устранять их, модифицируя запрос:
стол* И-НЕ (столова* ИЛИ столеш* ИЛИ столон* ИЛИ столб* ...)
Заметим, что в новом запросе нельзя написать "столов*" вместо "столова*" — пропадет родительный падеж множественного числа слова "стол"; точно также нельзя написать "столе*" вместо "столеш*" — пропадет предложный падеж слова "стол". Таким образом, язык искомых документов необходимо знать не просто хорошо ;-)
Две российские ИПС (Апорт
и Яндекс)
"знают" русскую грамматику (точнее,
морфологию русского языка) и в словаре
хранят только так называемую "нормальную
форму" слова (для существительного —
Описанные возможности словарных ИПС, хотя и достаточно мощные, зачастую оказываются совершенно недостаточными для поиска даже очень простой информации. Попробуем решить следующую задачу: отыскать сведения о продаже металлических стульев:
металлическ* И стул*
Но этому запросу отвечает прейскурант торговой фирмы, продающей плетеный (вторая строка прейскуранта) и (178 строка прейскуранта). Оператор отыскивает документы, в которых искомые слова встречаются в любом месте!
Для устранения этого недостатка некоторые ИПС хранят не просто список документов, в которых встречается слово, но и номер этого слова в конкретном документе. Это позволяет в языке запросов такой ИПС использовать оператор РЯДОМ, что решает поставленную задачу:
металлическ* РЯДОМ стул*
Многие ИПС не позволяют написать такой запрос — они не разрешают использовать термины с правым усечением совместно с оператором РЯДОМ, (только слова), но это ограничение постепенно снимается, — следите за информацией на конкретных ИПС.
Оператор РЯДОМ в различных ИПС обозначается по-разному (он имеется в AltaVista, Lycos, Апорт и Яндекс и во всех этих ИПС используются разные обозначения). Более того, в разных ИПС он может иметь и несколько различный смысл. Так, AltaVista считает, что РЯДОМ — это не более чем через 10 слов в любом порядке, в то время как другие ИПС позволяют указывать требуемое расстояние между словами (ровно столько-то или не более чем столько-то). Lycos позволяет указывать расстояние и требуемый порядок слов. Апорт позволяет указывать расстояние между словами в словах; Яндекс — в словах и абзацах (с возможностью указать порядок следования слов).
Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки совершенно невозможно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка.
Многие ИПС предоставляют
Дать общий рецепт эффективной стратегии поиска информации в Интернете, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Попробую их изложить.
Начну с примера. Если вам необходимо
узнать, где растет древовидная черника,
то вряд ли вы пойдете в алфавитный
каталог библиотеки. Может быть, вы найдете
нужную литературу с помощью систематического
каталога. С несколько большей вероятностью — с
помощью предметного. Но, скорее всего,
ни один из библиотечных каталогов вам
не поможет. Зайдите, однако, в информационно-
Подобную стратегию можно с успехом применять и в Интернет. В ИПС общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос.
Целью использования универсальной
ИПС общего назначения
может быть поиск специализированной
ИПС,
посвященной тематике вашего поиска.
Такая ИПС может быть распознана по наличию слов "информация (information)", "указатель (directory)" и т.п. в найденных в универсальной ИПС документах. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.
Иногда приходится разыскивать несколько информационных систем со все более узкой тематикой.
Однажды ко мне обратились с просьбой срочно найти информацию о продаже судов-сухогрузов (по-английски — bulker). Запрос в AltaVista (простой поиск)
+bulker* +sale*
дал нулевой результат; запрос
+ship* +sale*
дал тысячи ссылок на страницы, посвященные продажам катеров и яхт (впрочем, попалась и одна баржа).
Внимательное изучение нескольких первых страниц списка результатов поиска показало, что в найденных текстах часто присутствует слово "marine (морской)". И тут я вспомнил, что есть в английском языке слово "maritime", означающее "все морское". Запрос
+maritime +information*
уже среди первых десяти ссылок содержал ссылку на расположенную на www.GeoCities.com информационную систему по морской тематике. Но и в ней информации о продаже сухогрузов не было. Зато была информация об отправке сухогрузов из портов мира, включающая сведения о владельцах судов. Многие из фирм — владельцев судов имели в своем названии слова "ship brokers (торговцы судами)". Этого английского выражения я не знал. Однако запрос в AltaVista
+ship* +broker*
дал мне огромный список страниц, среди которых была одна с уже знакомым адресом — www.GeoCities.com. Оказывается, существует специализированная ИПС по торговцам судами!
Второй найденный с помощью такой ИПС торговец содержал Web-сервер, на котором нашелся подходящий сухогруз.
Приведенный пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите совершенно не в тех терминах, которые используют авторы искомых документов (вспомним о культурных различиях!).
Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.
1 Для доработки и/или исправления ошибок в ИС зачастую необходимо иметь информацию о языке программирования, на котором разработан компонент информационной системы.
2 Так поступают потому, что средства разработки, как правило, не бывают доступны в процессе эксплуатации информационной системы.
В.А.Капустин Информационные системы:
Общие характеристики информационных
систем 2006
Конспект лекций
В.А.Капустин Информационные системы:
Общие характеристики информационных
систем 2006
Конспект лекций
Информация о работе Информационные системы: Общие характеристики информационных систем