Интеллектуализация поисковых процедур

Автор работы: Пользователь скрыл имя, 23 Мая 2012 в 08:26, контрольная работа

Краткое описание

Настоящая работа посвящена изложению подходов и описанию программных средств поиска информации, в которых проблема полноты решается на пути привлечения методов мета поиска. Проблема точности – благодаря использованию солидного арсенала лингвистических средств, в частности, методов морфологического, синтаксического и поверхностного семантического анализа. Вторая особенность описываемых методов – возможность написания запросов на естественном языке.

Содержание

Введение

1 Концепция поисковой машины

2 Архитектура и программные средства системы

2.1 Агент мета поиска

2.2 Агент поиска по локальной сети

2.3 Агент скачивания

2.4 Агент семантической фильтрации

2.5 Модуль подключения новых информационных ресурсов

2.6 Модуль лингвистической обработки

2.7 Модуль управления словарем глаголов

2.8 Модуль управления словарем синонимов

2.9 Модуль интерфейса пользователя

3 База данных поисковой системы

4 Основополагающие свойства концепции интеллектуальной поисковой машины

4.1 Полнота информации

4.2 Точность

4.3 Актуальность

4.4 Качество

Заключение

Список литературы

Скачать в ZIP архиве (1.29 Мб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

Контрольная_ИС.doc

— 1.39 Мб (Скачать файл)

Министерство образования и науки РФ

Новокузнецкий институт (филиал)

Федерального государственного бюджетного образовательного учреждения

высшего профессионального образования

«Кемеровский государственный университет»

Кафедра информационных систем и управления

им. В.К. Буторина

Контрольная работа

дисциплина: «Информационные системы»

на тему: «Интеллектуализация поисковых процедур»

Выполнил: студент

Группа

Проверил преподаватель:

«Зачтено», «Не зачтено»

Дата «___» __________2012 г.

Содержание

Введение

В настоящее время в связи с тенденцией интеграции локальных сетей с глобальными, а также ростом объемов информации сетевых ресурсов и баз данных, существенно возросла важность проблемы релевантного поиска в источниках различного вида. Однако, хорошо известно, что применяемые в существующих системах методы не позволяют достичь высокой полноты и точности поиска. Одной из причин является узкая специализация систем поиска, которые не позволяют решать широкий спектр задач поиска одновременно в нескольких информационных источниках, таких как ресурсы глобальных и локальных вычислительных сетей, базы данных, локальные документы на жестких дисках и т. д.

В большинстве случаев полнота поиска увеличивается за счет непрерывного мониторинга сети или базы данных с целью выявления новых документов. Иной путь – создание мета поисковых систем, позволяющих объединять результаты поиска из различных источников.

Проблема точности традиционно решается на пути использования линейного поиска по ключевым словам с привлечением некоторых лингвистических методов. Ряд систем декларирует возможности семантического поиска, ввода запросов на естественном языке, ответов на вопросы пользователя, однако использует для достижения декларируемых целей неадекватные лингвистические и программные средства. Результатом работы таких систем является достаточно большой массив документов, из которых в действительности релевантными являются очень немногие.

Концепция поисковой машины

Определение концепции поисковой машины, её тематики и объектной базы – является основополагающим этапом разработки. От него зависят все уровни поисковой машины. Для начала необходимо определить, что будет находить и индексировать поисковая машина – её предметную область. В зависимости от объекта поиска будет детально определяться структура представления в базе данных.

Наиболее общий и трудоемкий случай – это поиск информации в сети Интернет. Информация не имеет четкой тематики и структуры. В отличие от общего поиска в Интернете, сфокусированный поиск в новостных каналах имеет ряд ограничений, которые могут упростить как базу данных, так и алгоритм поисковой машины. Новость имеет вполне четкую логическую структуру: заголовок, автора, текст новости, ссылку на первоисточник и пр. В данном случае упрощается алгоритм индексации документа, т.к. программа может не анализировать структуру страницы, а производить поиск лишь в определенных логических частях документа.

Предлагается использование единой системной архитектуры и методики при поиске информации из различных информационных источников. Принципиальная схема поиска показана на рисунке 1.

Основными рассматриваемыми в работе проблемами являются точность и полнота поиска. Под полнотой поиска будем понимать степень охвата информационных источников, которые могут содержать

интересующую пользователя информацию. Под точностью – степень релевантности найденных по запросу пользователя документов.

Рисунок 1 – Схема поиска информации из различных информационных источников

Для повышения полноты поиска разработана мета поисковая система, которая позволяет настраиваться на интерфейсы поисковых ресурсов и отправлять преобразованные запросы пользователя сразу на несколько поисковых машин или любые иные сайты.

Точность поиска можно повысить за счет последующей обработки информации и семантической фильтрации найденных документов. Сказанное можно продемонстрировать на следующей схеме.

Опишем принципиальный алгоритм работы системы:

пользователь выбирает тип запроса (в сети Интернет, в локальной БД, в локальной сети) и вводит поисковый запрос на естественном языке;
запрос обрабатывается, из него извлекаются ключевые слова, при этом используется расширение запроса за счет использования словаря синонимов и из запроса выбрасываются стоп-слова и т. д.;
преобразованный таким образом запрос отправляется либо на несколько поисковых машин Интернет (например, на Яндекс или Рамблер) или в локальную БД (поиск осуществляется среди помещенных в ней документов), либо выполняется в папках локальной сети;
найденные документы обрабатываются и помещаются полнотекстовую базу данных системы;
запрос пользователя и найденные документы подвергаются лингвистическому анализу, включающему морфологический, синтаксический и поверхностный семантический анализ, строятся семантические образы запроса и документов, проводится сравнение образов и вычисление семантической релевантности найденных документов запросу пользователя;
найденные документы сортируются в соответствии с вычисленной релевантностью. Низко релевантные документы отбрасываются.

Архитектура и программные средства системы

Концептуально, система состоит из нескольких компонентов, связанных друг с другом. Под компонентом понимается набор логически связанных модулей, имеющих общее назначение и представляющих собой законченную подсистему. Основное связующее звено компонентов системы – база данных, в которой централизованно хранится основная информация. Для данных, которые нецелесообразно хранить в реляционной БД, используются файловые хранилища. Система поддерживает параллельную обработку данных, при этом используется мультиагентная среда распределенных вычислений. Компонентная модель представлена на рисунке 2.

Рисунок 2 – Компонентная модель системы поиска

Интерфейс пользователя. Под интерфейсом администратора понимается набор программного обеспечения, позволяющий управлять системой и поддерживать ее основные функции, такие как пополнение и редактирование словарей, настройка на новые поисковые ресурсы, управление пользователями, управление настройками системы и т. д. Прежде чем какая-либо задача будет исполнена, она попадает в очередь задач. Задачи исполняются параллельно несколькими агентами, причем обработка может проходить на нескольких компьютерах локальной сети. Каждый агент записывает результаты своей работы в базу данных, которые потом будут выданы пользователю, разумеется, в уже обработанном виде. Задачи могут выполняться несколькими агентами, причем различного класса, отработка агента может повлечь за собой постановку новых задач.

Основные модули системы:

агент мета поиска;
агент поиска по локальной сети;
агент скачивания;
агент семантической фильтрации;
модуль подключения новых информационных ресурсов;
модуль лингвистической обработки;
модуль управления словарем глаголов;
модуль управления словарем синонимов (тезаурус);
модуль интерфейса пользователя.

Агент мета поиска

Основной задачей агента является выполнение поискового запроса к ресурсам сети Интернет и получение ссылок на найденные документы. В основе алгоритма работы агента лежит предположение о том, что любой ресурс можно описать при помощи некой структуры в терминах тэгов HTML. Указанная структура заполняется в полуавтоматическом режиме при помощи модуля подключения новых информационных источников. Среди вспомогательных задач агента – извлечение дополнительной информации из структуры описания поискового ресурса, эта функциональность позволяет инкапсулировать в агенте всю логику по разбору структуры описания поискового ресурса.

Агент поиска по локальной сети

Агент выполняет поиск информации в локальных сетях. Поиск осуществляется по проиндексированным каталогам. Агент использует специализированный компонент для извлечения текстов из найденных документов, который позволяет понимать различные форматы, как HTML, TXT, MS Word, MS Excel и MS PowerPoint.

Агент скачивания

Среди главных задач агента – загрузка документа по ссылке (URL) из сети Интернет, используя протокол HTTP, выделение текста документа и преобразование его в кодировку Windows. Скачанные документы сохраняются в локальной БД системы для последующей обработки.

Агент семантической фильтрации

Основными задачами агента семантической фильтрации являются оценка семантической близости запроса и документа (в процентах) и упорядочивание результирующего набора документов в соответствии с этой оценкой (документы с большим процентом семантической релевантности показываются в первую очередь). Релевантность найденных документов оценивается по трем параметрам:

семантическим падежам (ролям). Тексты документов разрезаются на фрагменты, содержащие ключевые слова запроса. Фрагменты передаются для обработки модулю семантического анализа, который строит их поисковый образ. Поисковый образ – это индекс пар роль, именная синтаксема;
именная синтаксема = предлог + падеж следующего существительного. Такая же процедура применяется к запросу. Далее выполняется сравнение семантического образа запроса с семантическими образами фрагментов документа. Релевантность в этом случае есть оценка найденных в образе документа пар из образа запроса;
семантическим связям. Тексты документов разрезаются на фрагменты, содержащие ключевые слова запроса. Фрагменты передаются для обработки модулю семантического анализа, который строит их поисковый образ. Поисковый образ – это индекс троек тип семантической связи, 1-я синтаксема, 2-я синтаксема. Далее сравнивается семантический образ запроса с образами фрагментов документа. Релевантность по связям есть оценка найденных в образе документа троек из образа запроса;
ключевым словам. В документах осуществляется поиск деревьев, растущих от существительных запроса. Синтаксема запроса должна целиком содержаться в синтаксеме документа, релевантность документов по ключевым словам есть процент найденных в документе синтаксем запроса.

Модуль подключения новых информационных ресурсов

Информационные ресурсы необходимы для первичного поиска информации по ключевым словам, которая в дальнейшем будет отфильтрована и предоставлена пользователю. Информационными источниками являются любые поисковые системы, включая поисковые машины, типа yandex.ru, rambler.ru, altavista.com, Интернет-каталоги, информационные и новостные серверы, Интернет-порталы и любые другие Интернет-ресурсы, имеющие возможности поиска по ключевым словам.

Информация о работе Интеллектуализация поисковых процедур