Автор работы: Пользователь скрыл имя, 23 Мая 2012 в 08:26, контрольная работа
Настоящая работа посвящена изложению подходов и описанию программных средств поиска информации, в которых проблема полноты решается на пути привлечения методов мета поиска. Проблема точности – благодаря использованию солидного арсенала лингвистических средств, в частности, методов морфологического, синтаксического и поверхностного семантического анализа. Вторая особенность описываемых методов – возможность написания запросов на естественном языке.
Введение
1 Концепция поисковой машины
2 Архитектура и программные средства системы
2.1 Агент мета поиска
2.2 Агент поиска по локальной сети
2.3 Агент скачивания
2.4 Агент семантической фильтрации
2.5 Модуль подключения новых информационных ресурсов
2.6 Модуль лингвистической обработки
2.7 Модуль управления словарем глаголов
2.8 Модуль управления словарем синонимов
2.9 Модуль интерфейса пользователя
3 База данных поисковой системы
4 Основополагающие свойства концепции интеллектуальной поисковой машины
4.1 Полнота информации
4.2 Точность
4.3 Актуальность
4.4 Качество
Заключение
Список литературы
Министерство образования и науки РФ
Новокузнецкий институт (филиал)
Федерального государственного бюджетного образовательного учреждения
высшего профессионального образования
«Кемеровский
государственный университет»
Кафедра информационных систем и управления
им. В.К.
Буторина
Контрольная
работа
дисциплина:
«Информационные системы»
на тему:
«Интеллектуализация поисковых
процедур»
Выполнил: студент
Группа
Проверил
преподаватель:
«Зачтено», «Не зачтено»
Дата
«___» __________2012 г.
Содержание
В настоящее время в связи с тенденцией интеграции локальных сетей с глобальными, а также ростом объемов информации сетевых ресурсов и баз данных, существенно возросла важность проблемы релевантного поиска в источниках различного вида. Однако, хорошо известно, что применяемые в существующих системах методы не позволяют достичь высокой полноты и точности поиска. Одной из причин является узкая специализация систем поиска, которые не позволяют решать широкий спектр задач поиска одновременно в нескольких информационных источниках, таких как ресурсы глобальных и локальных вычислительных сетей, базы данных, локальные документы на жестких дисках и т. д.
В большинстве случаев полнота поиска увеличивается за счет непрерывного мониторинга сети или базы данных с целью выявления новых документов. Иной путь – создание мета поисковых систем, позволяющих объединять результаты поиска из различных источников.
Проблема точности традиционно решается на пути использования линейного поиска по ключевым словам с привлечением некоторых лингвистических методов. Ряд систем декларирует возможности семантического поиска, ввода запросов на естественном языке, ответов на вопросы пользователя, однако использует для достижения декларируемых целей неадекватные лингвистические и программные средства. Результатом работы таких систем является достаточно большой массив документов, из которых в действительности релевантными являются очень немногие.
Настоящая работа посвящена изложению подходов и описанию программных средств поиска информации, в которых проблема полноты решается на пути привлечения методов мета поиска. Проблема точности – благодаря использованию солидного арсенала лингвистических средств, в частности, методов морфологического, синтаксического и поверхностного семантического анализа. Вторая особенность описываемых методов – возможность написания запросов на естественном языке.
Определение концепции поисковой машины, её тематики и объектной базы – является основополагающим этапом разработки. От него зависят все уровни поисковой машины. Для начала необходимо определить, что будет находить и индексировать поисковая машина – её предметную область. В зависимости от объекта поиска будет детально определяться структура представления в базе данных.
Наиболее общий и трудоемкий случай – это поиск информации в сети Интернет. Информация не имеет четкой тематики и структуры. В отличие от общего поиска в Интернете, сфокусированный поиск в новостных каналах имеет ряд ограничений, которые могут упростить как базу данных, так и алгоритм поисковой машины. Новость имеет вполне четкую логическую структуру: заголовок, автора, текст новости, ссылку на первоисточник и пр. В данном случае упрощается алгоритм индексации документа, т.к. программа может не анализировать структуру страницы, а производить поиск лишь в определенных логических частях документа.
Предлагается использование единой системной архитектуры и методики при поиске информации из различных информационных источников. Принципиальная схема поиска показана на рисунке 1.
Основными рассматриваемыми в работе проблемами являются точность и полнота поиска. Под полнотой поиска будем понимать степень охвата информационных источников, которые могут содержать
интересующую
пользователя информацию. Под точностью
– степень релевантности найденных по
запросу пользователя документов.
Рисунок
1 – Схема поиска информации из различных
информационных источников
Для повышения полноты поиска разработана мета поисковая система, которая позволяет настраиваться на интерфейсы поисковых ресурсов и отправлять преобразованные запросы пользователя сразу на несколько поисковых машин или любые иные сайты.
Точность поиска можно повысить за счет последующей обработки информации и семантической фильтрации найденных документов. Сказанное можно продемонстрировать на следующей схеме.
Опишем принципиальный алгоритм работы системы:
Концептуально, система состоит из нескольких компонентов, связанных друг с другом. Под компонентом понимается набор логически связанных модулей, имеющих общее назначение и представляющих собой законченную подсистему. Основное связующее звено компонентов системы – база данных, в которой централизованно хранится основная информация. Для данных, которые нецелесообразно хранить в реляционной БД, используются файловые хранилища. Система поддерживает параллельную обработку данных, при этом используется мультиагентная среда распределенных вычислений. Компонентная модель представлена на рисунке 2.
Рисунок
2 – Компонентная модель системы
поиска
Интерфейс пользователя. Под интерфейсом администратора понимается набор программного обеспечения, позволяющий управлять системой и поддерживать ее основные функции, такие как пополнение и редактирование словарей, настройка на новые поисковые ресурсы, управление пользователями, управление настройками системы и т. д. Прежде чем какая-либо задача будет исполнена, она попадает в очередь задач. Задачи исполняются параллельно несколькими агентами, причем обработка может проходить на нескольких компьютерах локальной сети. Каждый агент записывает результаты своей работы в базу данных, которые потом будут выданы пользователю, разумеется, в уже обработанном виде. Задачи могут выполняться несколькими агентами, причем различного класса, отработка агента может повлечь за собой постановку новых задач.
Основные модули системы:
Основной задачей агента является выполнение поискового запроса к ресурсам сети Интернет и получение ссылок на найденные документы. В основе алгоритма работы агента лежит предположение о том, что любой ресурс можно описать при помощи некой структуры в терминах тэгов HTML. Указанная структура заполняется в полуавтоматическом режиме при помощи модуля подключения новых информационных источников. Среди вспомогательных задач агента – извлечение дополнительной информации из структуры описания поискового ресурса, эта функциональность позволяет инкапсулировать в агенте всю логику по разбору структуры описания поискового ресурса.
Агент выполняет поиск информации в локальных сетях. Поиск осуществляется по проиндексированным каталогам. Агент использует специализированный компонент для извлечения текстов из найденных документов, который позволяет понимать различные форматы, как HTML, TXT, MS Word, MS Excel и MS PowerPoint.
Среди главных задач агента – загрузка документа по ссылке (URL) из сети Интернет, используя протокол HTTP, выделение текста документа и преобразование его в кодировку Windows. Скачанные документы сохраняются в локальной БД системы для последующей обработки.
Основными задачами агента семантической фильтрации являются оценка семантической близости запроса и документа (в процентах) и упорядочивание результирующего набора документов в соответствии с этой оценкой (документы с большим процентом семантической релевантности показываются в первую очередь). Релевантность найденных документов оценивается по трем параметрам:
Информационные ресурсы необходимы для первичного поиска информации по ключевым словам, которая в дальнейшем будет отфильтрована и предоставлена пользователю. Информационными источниками являются любые поисковые системы, включая поисковые машины, типа yandex.ru, rambler.ru, altavista.com, Интернет-каталоги, информационные и новостные серверы, Интернет-порталы и любые другие Интернет-ресурсы, имеющие возможности поиска по ключевым словам.