Автор работы: Пользователь скрыл имя, 15 Декабря 2013 в 16:32, курсовая работа
В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.
• ВВЕДЕНИЕ
• 1. Место и роль компьютерной лингвистики в лингвистических исследованиях
• 2. Современные интерфейсы компьютерной лингвистики
• ЗАКЛЮЧЕНИЕ
• ЛИТЕРАТУРА
КУРСОВАЯ РАБОТА
по дисциплине «Информатика»
по теме: «Предметы и задачи компьютерной лингвистики»
Содержание
Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми - средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно - на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.
1. Место и роль компьютерной лингвистики в лингвистических исследованиях
В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.
Компьютерная лингвистика - это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.
Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части - средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.
Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).
Тем не менее, можно отметить
серьезные научные и
Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.
Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.
В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.
Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:
1. Автоматизация составления и лингвистической обработки машинных словарей;
2. Автоматизация процессов
обнаружения и исправления
3. Автоматическое индексирование документов и информационных запросов;
4. Автоматическая классификация и реферирование документов;
5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;
6. Машинный перевод текстов с одних естественных языков на другие;
7. Построение лингвистических
процессоров, обеспечивающих
8. Извлечение фактографической
информации из
Подробно остановимся на проблемах, наиболее относящихся к теме исследования.
В практической деятельности
информационных центров есть необходимость
решения задачи автоматизированного
обнаружения и исправления
Задача синтаксического
контроля текстов с целью обнаружения
в них ошибок существенно сложнее
задачи их орфографического контроля.
Во-первых, потому, что она включает
в свой состав и задачу орфографического
контроля как свою обязательную компоненту,
а, во-вторых, потому, что проблема синтаксического
анализа неформализованных
Задачу семантического контроля
текстов с целью обнаружения
в них смысловых ошибок следует
отнести к классу задач искусственного
интеллекта. В полном объеме она
может быть решена только на основе
моделирования процессов
Проблема автоматизации индексирования документов и запросов является традиционной для систем автоматизированного поиска текстовой информации. Поначалу под индексированием понимали процесс присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. В дальнейшем это понятие трансформировалось и термином «индексирование» стали называть процесс перевода описаний документов и запросов с естественного языка на формализованный, в частности, на язык «поисковых образов». Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов - в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами.
Автоматическое индексирование документов удобно проводить по текстам их рефератов (если они имеются), поскольку в рефератах основное содержание документов отражается в концентрированном виде. Индексирование может проводиться с контролем по тезаурусу или без контроля. В первом случае в тексте заголовка документа и его реферата ищутся ключевые слова и словосочетания эталонного машинного словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования.
При автоматическом индексировании
запросов возникают примерно те же
проблемы, что и при автоматическом
индексировании документов. Здесь также
приходится выделять ключевые слова
и словосочетания из текста и нормализовать
слова, входящие в текст запроса.
Логические связки между ключевыми
словами и словосочетаниями и
контекстуальные операторы
Проблему автоматизации
поиска документальной информации мы
уже частично рассматривали в
связи с задачей
Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а точность - путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно.
Процесс поиска информации
в полнотекстовых базах данных целесообразно
строить как процесс
Как видно из предыдущих
рассуждений, при автоматическом поиске
информации приходится преодолевать языковый
барьер, возникающий между
Информация о работе Предметы и задачи компьютерной лингвистики