Предметы и задачи компьютерной лингвистики

Автор работы: Пользователь скрыл имя, 15 Декабря 2013 в 16:32, курсовая работа

Краткое описание

В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Содержание

• ВВЕДЕНИЕ
• 1. Место и роль компьютерной лингвистики в лингвистических исследованиях
• 2. Современные интерфейсы компьютерной лингвистики
• ЗАКЛЮЧЕНИЕ
• ЛИТЕРАТУРА

Вложенные файлы: 1 файл

КУРСОВАЯ РАБОТА.docx

— 36.13 Кб (Скачать файл)

КУРСОВАЯ РАБОТА

по дисциплине «Информатика»

по теме: «Предметы и  задачи компьютерной лингвистики»

Содержание

  • ВВЕДЕНИЕ
  • 1. Место и роль компьютерной лингвистики в лингвистических исследованиях
  • 2. Современные интерфейсы компьютерной лингвистики
  • ЗАКЛЮЧЕНИЕ
  • ЛИТЕРАТУРА
  • Введение
  • В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки  текстовой информации, представленной на естественных языках, выступают  на передний план. Это определяется тем, что мышление человека тесно  связано с его языком. Более  того, естественный язык является инструментом мышления. Он является также универсальным  средством общения между людьми - средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного  языка в системах автоматической обработки информации занимается наука  компьютерная лингвистика. Эта наука  возникла сравнительно недавно - на рубеже пятидесятых и шестидесятых годов  прошлого столетия. За прошедшие полвека  в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.

1. Место и роль  компьютерной лингвистики в лингвистических исследованиях

В современном мире при  проведении различных лингвистических  исследований все более активно  используется компьютерная лингвистика.

Компьютерная лингвистика - это область знаний, связанная  c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

Лингвистические средства, создаваемые и применяемые в  компьютерной лингвистике, можно условно  разделить на две части: декларативную  и процедурную. К декларативной  части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной  части - средства манипулирования единицами  языка и речи, текстами и грамматическими  таблицами. Компьютерный интерфейс  относится к процедурной части  компьютерной лингвистики.

Успех в решении прикладных задач компьютерной лингвистики  зависит, прежде всего, от полноты и  точности представления в памяти ЭВМ декларативных средств и  от качества процедурных средств. На сегодняшний день необходимый уровень  решения этих задач пока еще не достигнут, хотя работы в области  компьютерной лингвистики ведутся  во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между  декларативной и процедурной  компонентами систем автоматической обработки  текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

Необходимость мобилизации  усилий, прежде всего, на развитии декларативной  компоненты систем автоматической обработки  текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

В свете вышеизложенного, представляется перспективным такой  путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка  и речи, изучение их семантико-синтаксической структуры и на создание базовых  процедур морфологического, семантико-синтаксического  и концептуального анализа и  синтеза текстов. Это позволит в  дальнейшем решать широкий спектр прикладных задач.

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления  и лингвистической обработки  машинных словарей;

2. Автоматизация процессов  обнаружения и исправления ошибок  при вводе текстов в ЭВМ;

3. Автоматическое индексирование  документов и информационных  запросов;

4. Автоматическая классификация  и реферирование документов;

5. Лингвистическое обеспечение  процессов поиска информации  в одноязычных и многоязычных  базах данных;

6. Машинный перевод текстов  с одних естественных языков  на другие;

7. Построение лингвистических  процессоров, обеспечивающих общение  пользователей с автоматизированными  интеллектуальными информационными  системами (в частности, с экспертными  системами) на естественном языке,  или на языке, близком к естественному;

8. Извлечение фактографической  информации из неформализованных  текстов.

Подробно остановимся  на проблемах, наиболее относящихся  к теме исследования.

В практической деятельности информационных центров есть необходимость  решения задачи автоматизированного  обнаружения и исправления ошибок в текстах при их вводе в  ЭВМ. Эта комплексная задача может  быть условно расчленена на три задачи - задачи орфографического, синтаксического  и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ  слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются  правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

Задача синтаксического  контроля текстов с целью обнаружения  в них ошибок существенно сложнее  задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического  анализа неформализованных текстов  в полном объеме еще не решена. Тем  не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему  правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее - в виде последовательностей наборов грамматической информации к словам).

Задачу семантического контроля текстов с целью обнаружения  в них смысловых ошибок следует  отнести к классу задач искусственного интеллекта. В полном объеме она  может быть решена только на основе моделирования процессов человеческого  мышления. При этом, по-видимому, придется создавать мощные энциклопедические  базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной  информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического  контроля текстов.

Проблема автоматизации  индексирования документов и запросов является традиционной для систем автоматизированного  поиска текстовой информации. Поначалу под индексированием понимали процесс  присвоения документам и запросам классификационных  индексов, отражающих их тематическое содержание. В дальнейшем это понятие трансформировалось и термином «индексирование» стали называть процесс перевода описаний документов и запросов с естественного языка на формализованный, в частности, на язык «поисковых образов». Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов - в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами.

Автоматическое индексирование документов удобно проводить по текстам  их рефератов (если они имеются), поскольку  в рефератах основное содержание документов отражается в концентрированном  виде. Индексирование может проводиться  с контролем по тезаурусу или  без контроля. В первом случае в  тексте заголовка документа и  его реферата ищутся ключевые слова  и словосочетания эталонного машинного  словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования.

При автоматическом индексировании запросов возникают примерно те же проблемы, что и при автоматическом индексировании документов. Здесь также  приходится выделять ключевые слова  и словосочетания из текста и нормализовать  слова, входящие в текст запроса. Логические связки между ключевыми  словами и словосочетаниями и  контекстуальные операторы могут  проставляться вручную или с  помощью автоматизированной процедуры. Важным элементом процесса автоматического  индексирования запроса является дополнение входящих в его состав ключевых слов и словосочетаний их синонимами и  гипонимами (иногда также гиперонимами и другими терминами, ассоциированными с исходными терминами запроса). Это может быть сделано в автоматическом или в интерактивном режиме с помощью машинного тезауруса.

Проблему автоматизации  поиска документальной информации мы уже частично рассматривали в  связи с задачей автоматического  индексирования. Наиболее перспективным  здесь является поиск документов по их полным текстам, так как использование  для этой цели всякого рода заменителей (библиографических описаний, поисковых  образов документов и текстов  их рефератов) приводит к потерям  информации при поиске. Наибольшие потери имеют место тогда, когда  в качестве заменителей первичных  документов используются их библиографические  описания, наименьшие - при использовании  рефератов.

Важными характеристиками качества поиска информации являются его полнота  и точность. Полнота поиска может  быть обеспечена путем максимального  учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а  точность - путем учета их синтагматических связей. Существует мнение, что полнота  и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно.

Процесс поиска информации в полнотекстовых базах данных целесообразно  строить как процесс диалогового  общения пользователя с информационно-поисковой  системой (ИПС), при котором он последовательно  просматривает фрагменты текстов (абзацы, параграфы), удовлетворяющие  логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных  результатов поиска могут выдаваться как полные тексты документов, так  и любые их фрагменты.

Как видно из предыдущих рассуждений, при автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем  и ИПС в связи с имеющим  место в текстах разнообразием  форм представления одного и того же смысла. Этот барьер становится еще  более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь  может быть машинный перевод текстов  документов с одних языков на другие. Это можно делать либо заранее, перед  загрузкой документов в поисковую  систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива  документов, в котором ведется  поиск, а результаты поиска - на язык запроса. Такого рода поисковые системы  уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя.

Информация о работе Предметы и задачи компьютерной лингвистики