Понятие естественно-языкового интерфейса

Автор работы: Пользователь скрыл имя, 21 Июня 2014 в 12:50, курсовая работа

Краткое описание

Проблема взаимодействия человека с компьютером существует с момента появления вычислительной техники. На начальном этапе непосредственное взаимодействие с ЭВМ осуществляли только программисты, а специалисты других областей – потребители результатов, полученных на компьютере, выступали в роли косвенных конечных пользователей, т. е. общались с компьютером через программистов. По мере расширения сферы использования компьютера и увеличения масштабов их применения конечные пользователи стали вовлекаться в процесс непосредственного взаимодействия с компьютером, что привело к появлению массовой категории пользователей – прямых конечных пользователей, работающих в диалоговом режиме.

Вложенные файлы: 1 файл

Курсовая.doc

— 1.55 Мб (Скачать файл)

Введение

Проблема взаимодействия человека с компьютером существует с момента появления вычислительной техники. На начальном этапе непосредственное взаимодействие с ЭВМ осуществляли только программисты, а специалисты других областей – потребители результатов, полученных на компьютере, выступали в роли косвенных конечных пользователей, т. е. общались с компьютером через программистов. По мере расширения сферы использования компьютера и увеличения масштабов их применения конечные пользователи стали вовлекаться в процесс непосредственного взаимодействия с компьютером, что привело к появлению массовой категории пользователей – прямых конечных пользователей, работающих в диалоговом режиме.

Сложность создания средств общения, предназначенных для конечных пользователей, обусловлена в значительной степени отсутствием единой теории языкового общения, охватывающей все аспекты взаимодействия коммуникантов. Поэтому при разработке средств общения конечных пользователей на процесс взаимодействия часто налагаются различные «спонтанные» ограничения, последствия которых не до конца осознаются разработчиками. Эти ограничения приводят к тому, что многие человеко-машинные системы, на разработку которых тратятся огромные средства, не удовлетворяют требованиям конечных пользователей.

    1. Понятие естественно-языкового интерфейса

    1. Сущность естественно-языкового интерфейса

Под пользовательским интерфейсом к структурированным источникам данных понимается система средств, облегчающих поиск, получение, просмотр и обработку информации из внешней системы - структурированного источника данных (СИД). Естественно-языковой интерфейс (ЕЯИ) - разновидность пользовательского интерфейса, который принимает запросы на естественном языке, а также, возможно, использует ЕЯ и для вывода информации (реакции системы на запрос пользователя).

Этот интерфейс предполагает трансляцию естественно-языковых конструкций на внутримашинный язык представления знаний. Для этого необходимо решать задачи морфологического, синтаксического и семантического анализа и синтеза высказываний на естественном языке. Морфологический анализ предполагает распознавание и проверку правильности написания слов по словарям. Синтаксический анализ предполагает разложение входных сообщений на отдельные компоненты с проверкой соответствия грамматическим правилам внутреннего представления знаний и выявления недостающих частей. Семантический анализ предполагает установление смысловой правильности синтаксических конструкций. Синтез высказываний решает обратную задачу преобразования внутреннего представления информации в естественно-языковое представление.

ЕЯ интерфейс используется для следующих целей:

1) для доступа к интеллектуальным  БД;

2) для контекстного поиска  документальной текстовой информации;

3) для голосового ввода  команд в системах управления;

4) для машинного перевода  с иностранных языков.

    1. Структура естественно-языкового интерфейса

Естественно-языковой пользовательский интерфейс, рассматривается как специализированная интеллектуальная система, обеспечивающая диалог между прикладной системой и пользователем. Являясь интеллектуальной системой, естественно-языковой интерфейс включает в себя базу знаний, машину обработки знаний и пользовательский интерфейс.

Структура естественно-языкового интерфейса должна состоять из следующих составляющих:

пользовательский интерфейс, посредством которого происходит ввод сообщений пользователем и вывод ответа системы пользователю;

трансляторы естественно-языковых запросов на sc-язык вопросов;

трансляторы sc-конструкций на естественный язык.

Общая структура естественно-языкового пользовательского интерфейса представлена на рисунке 1.

Рисунок 1 - Структура естественно-языкового пользовательского интерфейса

Машина обработки знаний естественно-языкового интерфейса включает в себя операции обеспечивающие обработку различных лингвистических конструкций, перевод внешних языков на семантические языки интеллектуальной системы и обратно. Все компоненты машины обработки знаний естественно-языкового интерфейса можно разделить на трансляторы и анализаторы. Задачей трансляторов является перевод знаний из одного языка представления знаний в другой, к примеру, транслятор фактографических знаний по предметной области в текст на естественном языке. Задачей анализаторов является анализ фрагментов знаний и выявления ранее неизвестных фактов, к примеру, анализатор запроса пользователя направленный на поиск цели и задачи вопроса. Необходимым компонентом работы анализатора является словарь, который содержит слова и фразы, обычно с привязкой к ним определенной информации, связанной с семантикой, морфологией и т.д., в зависимости от подхода анализа ЕЯ.

Трансляторы естественно-языкового интерфейса, в минимальной конфигурации, должны включать в себя транслятор ограниченного естественного языка на язык вопросов и транслятор фактографических знаний на ограниченный естественный язык. Трансляторы естественно-языкового пользовательского интерфейса должны осуществлять обработку информационных структур полагаясь исключительно на описание синтаксиса используемого языка и описание семантики предметной области. Описание синтаксиса используемого языка записывается в лингвистической и предметной базах знаний. В лингвистической базе знаний так же должны быть описаны специфические для данной области знания о языке. Такой фрагмент базы знаний может представлять собой отдельный компонент, т.к. он представляет ценность только в совокупности с предметной и лингвистической базой знаний.

Еще одним важным компонентом многих систем является модель предметной области, структура которой варьируется в очень больших пределах от системы к системе. Модель предметной области (МПО) представляет собой систему средств для отражения тех сущностей, объектов, действий реального мира, которые отображены данной ИС. Проектирование любой базы данных следует начинать именно с описания ее на концептуальном уровне - то есть построения модели предметной области базы. Модель предметной области является одной из важнейших составляющих понимания ЕЯ, заслуживающей отдельного рассмотрения. Пользователь, обращаясь с запросом к информационной системе, как правило, имеет некоторое представление о предметной области, в которой работает информационная система. В то же время сама система (речь идет в данном случае об ИС вообще, а не только о ЕЯ-интерфейсах) представляет только некоторое подмножество этой предметной области. От того, насколько полно и точно отражена эта предметная область в системе, зависит качество ее работы и удобство работы с ней.

Цикл работы естественно-языкового интерфейса начинается с ввода пользователем сообщения на естественном языке, посредством ввода текста или голосового ввода. По введенному в систему тексту строиться его формальное отображение в памяти системы. Для построения запроса на формальном языке источника данных используется модель источника данных, отражающая основную структуру СИД, ее части, существенные для данного ЕЯИ.

Первым этапом анализа запроса пользователя является морфологический анализ. На данном этапе для каждой словоформы, в формальной записи предложения, строятся отношения в соответствии значений её грамматических категорий, т.е. совокупности грамматических значений (род, падеж, склонение и т.д.). Грамматические категории могут присутствовать в базе знаний естественно-языкового интерфейса явно (словоформа присутствует в словаре с описанием её грамматических категорий), либо грамматическая категория может выявляться на основании морфологических правил используемого естественного языка. Такой подход позволяет разработчику, при проектировании естественно-языкового интерфейса, выбирать между быстродействием и объемом проектируемой базы знаний.

На этапе лексического анализа строятся отношения синтаксических связей внутри предложения, выделяются главные и второстепенные члены предложения, выявляется тип предложения и т.д. Такой анализ протекает поэтапно “наращивая” формальное описание структуры предложения, используя информацию, полученную на этапе морфологического анализа. На этом этапе используются лексические и синтаксические правила используемого языка. В общем случае, такие правила описывают критерии существования синтаксических связей в предложении, при анализе предложения проверяется соответствие таким критериям, и в зависимости от результата создаются либо удаляются соответствующие связи в предложении. Правила синтаксического разбора предложения в лингвистической базе знаний записываются, как приведено на рисунке 2.

Рисунок 2 - Запись синтаксического правила в лингвистической базе знаний

Результатом этапа лексического анализа является формальное описание лексического разбора предложения в памяти естественно-языкового интерфейса. На следующем этапе, семантический анализ, строятся отношения эквивалентности элементов предложения и узлов в памяти системы. Данный этап является наиболее сложным этапом обработки естественно-языкового текста. В рамках используемой технологии, семантический анализ, представляет собой обработку семантической сети, отражающую результат анализа естественно-языкового текста на всех

предыдущих этапах, а также присутствующих в системе знаний о языке и предметной области основной системы. На этом этапе происходит соотношение лингвистической конструкций и конструкций в памяти системы, для выявления отношения соответствия, эквивалентности и т.д.

Результатом семантического анализа является конструкция запроса к системе. Сложность в получении такого результата заключается в семантической неполноте исходного естественно-языкового вопроса.

Вопросы, сгенерированные естественно-языковым интерфейсом, обрабатывает универсальный решатель, являющийся частью системы по соответствующей предметной области. Стоит заметить, что универсальный

решатель использует знания и лингвистической базы знаний, таким образом, система может отвечать на вопросы, связанные с используемым естественным языком.

    1. Проблема понимания естественно-языкового запроса и методы поиска информации

    1. Проблемы понимания естественного языка

Проблемы понимания естественного языка, будь то текст или речь, во многом зависят от знания предметной области. Понимание языка требует знаний о целях говорящего и о контексте. Необходимо также учитывать недосказанность или иносказательность. Например, даже в таком простом предложении «Ваня встретил Машу на поляне с цветами» нам не понятно, кто же был с цветами: Ваня, Маша или поляна? Еще один пример «Врач бегло говорила по-английски». Разбирая это предложение, необходимо в результате разбора зафиксировать, что врач была женщина. Основные проблемы понимания естественного языка:

  1. Проблема СМЫСЛ-ТЕКСТ. В предложении «Какой завод заказал оборудование для конвертерного цеха в Бельгии?» неясен смысл: был ли сделан заказ в Бельгии или цех находится в Бельгии.
  2. Проблема планирования возникает при необходимости вести диалог, например, на тему «Куда Вы хотите лететь?». В этом случае нужно глубокое знание предметной области (номера рейсов, время прилета-отлета, цены и т.д.).
  3. Проблема равнозначности. Будут ли равнозначны два предложения «У дома стоит слон» и «У дома стоит существо с хоботом и бивнями»? На первый взгляд нет сомнений в равнозначности этих предложений. А если в базе знаний существо с хоботом и бивнями определено двумя значениями: слон и мамонт, то такие сомнения, наверное, появятся.
  4. Проблемы моделей участников общения. У участников общения должны быть сопоставимые модели представления знаний, необходимая глубина понимания, возможность логического вывода, возможность действия.
  5. Проблема эллиптических конструкций, то есть опущенных элементов диалога. Например, в пословице «Береги платье снову, а честь - смолоду» вторая часть предложения будет синтаксическим эллипсисом (опущен глагол береги).
  6. Проблема временных противоречий. Например, в предложении «Я хотел завтра пойти в кино» глагол «хотел» в прошедшей форме сочетается с обстоятельством будущего времени «завтра», что противоречит общепринятой логике.
    1. Проблема доступа к знаниям

В проблеме доступа к знаниям можно выделить три аспекта: связность (или агрегация) знаний и данных, механизм доступа к знаниям и способ сопоставления.

 Связанность знаний  является основным способом, обеспечивающим  повышение скорости поиска релевантных  данных. Распространено мнение, что  знания следует организовывать вокруг наиболее важных объектов предметной области. Все знания, характеризующие некоторую сущность, связываются и представляются в виде отдельного объекта. При подобной организации знаний, если системе необходима информация о некоторой сущности, то она ищет объект, описывающий эту сущность, а затем уже внутри объекта находит информацию о данной сущности. В объектах выделяют два типа связок между элементами: внешние и внутренние. Внутренние связки организуют элементы в единый объект и выражают структуру объекта. Внешние связки указывают на взаимосвязи, между объектами в области экспертизы. Существует деление внешних связок на логические и ассоциативные. Логические отражают семантические отношения между элементами знаний. Ассоциативные связки обеспечивают взаимосвязи, способствующие повышению скорости процесса поиска релевантных знаний.

Основной проблемой при работе с большой базой знаний является проблема поиска знаний, относящихся к решаемой задаче. В связи с тем, что в обрабатываемых данных может не содержаться явных ссылок на значения, требуемые для их обработки, необходим некий более общий механизм поиска, чем метод прямого доступа (метод явных ссылок). Этот способ предназначен для того, чтобы по некоторому описанию показателя, имеющемуся в рабочей памяти, найти уже в базе знаний объекты, удовлетворяющие этому описанию. Таким образом, упорядочение и структурирование знаний могут значительно ускорить процесс поиска. Поиск данных можно рассмотреть, как процесс, состоящий из двух этапов. Первый этап соответствует процессу выбора по ассоциативным связкам. Здесь происходит предварительный выбор потенциальных кандидатов на роль желаемых объектов в базе знаний. На втором этапе путем выполнения операции сопоставления потенциальных кандидатов с описаниями кандидатов осуществляется окончательный выбор искомых объектов Операция сопоставления также может быть использована для классификации, подтверждения, декомпозиции и коррекции. Для идентификации неизвестного объекта его можно сопоставить с некоторыми известными образцами. Это позволит классифицировать неизвестный объект как такой известный образец, при сопоставлении с которым были получены лучшие результаты. Сопоставление используется для подтверждения некоторых кандидатов из множества возможных. Если сопоставить некоторый известный объект с неизвестным описанием, то в случае успешного сопоставления будет произведена частичная декомпозиция описания.

Информация о работе Понятие естественно-языкового интерфейса