Автор работы: Пользователь скрыл имя, 15 Декабря 2013 в 16:32, курсовая работа
В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.
• ВВЕДЕНИЕ
• 1. Место и роль компьютерной лингвистики в лингвистических исследованиях
• 2. Современные интерфейсы компьютерной лингвистики
• ЗАКЛЮЧЕНИЕ
• ЛИТЕРАТУРА
Важной и перспективной
задачей компьютерной лингвистики
является построение лингвистических
процессоров, обеспечивающих общение
пользователей с
Концептуальный анализ информационных
запросов и сообщений состоит
в выявлении их понятийной структуры
(границ наименований понятий и отношений
между понятиями в тексте) и
переводе этой структуры на формализованный
язык. Он проводится после морфологического
и синтаксического анализа
Для машинного перевода текстов
с одних естественных языков на другие
необходимо располагать словарями
переводных соответствий между наименованиями
понятий. Знания о таких переводных
соответствиях накапливались
В традиционных двуязычных
и многоязычных словарях общего назначения
переводные эквиваленты указывались
преимущественно для отдельных
слов, для словосочетаний - значительно
реже. Указание переводных эквивалентов
для словосочетаний было более характерно
для специальных
Ниже приведены переводные соответствия между несколькими парами английских и русских фраз по «школьной» тематике.
1) The bat looks like a mouse with wings - Летучая мышь похожа на мышь с крыльями.
2) Children like to play in the sand on the beach - Дети любят играть в песке на берегу моря.
3) A drop of rain fell on my hand - Капля дождя упала мне на руку.
4) Dry wood burns easily - сухие дрова хорошо горят.
5) He pretended not to hear me - Он делал вид, что не слышит меня.
Здесь английские фразы не
являются идиоматическими выражениями.
Тем не менее, их перевод на русский
язык лишь с некоторой натяжкой можно
рассматривать как простой
Ниже будут рассмотрены основные системы машинного перевода, способные помогать обучаемым при изучении языка.
2. Современные
интерфейсы компьютерной
Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых - начала шестидесятых годов прошлого века.
Из достижений компьютерной лингвистики следует выделить, прежде всего, систему под названием RETRANS. Первая промышленная версия этой системы была разработана в 1993 году и стала использоваться в ряде государственных учреждений России, Франции, США и Англии. После этого было создано еще несколько версий системы. До 1998 г. все они были предназначены для работы в среде операционной системы MS DOS, а в 1998-2000 г.г. были адаптированы для операционных систем Windows 9x/NT и различных вариантов UNIX (Linux, Solaris и др.).
В 2001 г. тем же авторским коллективом была разработана новая версия системы фразеологического машинного перевода RETRANS. Эта версия реализована в нескольких модификациях:
1. Система, работающая в среде текстового процессора MS Word-2000.
2. Система, работающая в среде Web-браузера MS Internet Explorer.
3. Система, работающая с любыми Windows-приложениями, способными копировать текст в «Буфер Обмена» (Clipboard).
Первая модификация системы обладает тем достоинством, что человек, имеющий опыт работы с редактором типа Word, может с помощью этой. При этом он может пользоваться всеми возможностями редактора Word.
Вторая модификация системы
может служить эффективным
Третья модификация системы может быть полезна при работе с простыми программами типа MS Notepad, MS Wordpad, MS Paint и им подобными, а также при обработке различных электронных форм.
В случае необходимости, на
одной ЭВМ могут
Основные политематические машинные словари системы Retrans (русско-английский и англо-русский) включают в свой состав терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу.
Кроме основных политематических машинных словарей в состав системы RETRANS входят двенадцать дополнительных тематических словарей, включающих лексику родственных тематик. Эти словари содержат словарные статьи только тех слов и словосочетаний из политематических словарей, которые в рамках каждой тематической группы имеют приоритетные переводные эквиваленты, отличные от приоритетных переводных эквивалентов основных словарей. В дополнительных тематических словарях лексические единицы (слова и словосочетания)могут иметь не более двух переводных эквивалентов (в политематическом словаре их может быть до пяти).
Средства автоматизированного
пополнения и настройки машинных
словарей, созданные на начальных
этапах разработки системы RETRANS, сыграли
большую роль в ее дальнейшем развитии.
Но опыт практической эксплуатации этой
системы выявил необходимость введения
некоторых изменений в
Словарь пользователя (СП) служит для тонкой настройки системы машинного перевода, выполняемой самим пользователем при переводе текстов по конкретной тематике. Кроме того, СП дает возможность использовать при переводе ранее накопленные словарные массивы. В отличие от основного политематического словаря и дополнительных тематических словарей, содержимое которых может изменяться только разработчиками системы машинного перевода, словарь пользователя может создаваться и изменяться пользователем по своему усмотрению.
По структуре словарных
статей словарь пользователя аналогичен
основному политематическому и
дополнительным тематическим словарям,
но он отличается от них количеством
возможных вариантов перевода, указываемых
для входных наименований понятий.
Здесь для каждого входного наименования
понятия может указываться
Каждая запись СП описывает наименование одного понятия исходного языка, которое может иметь длину от одного до 17-тислов. Его переводной эквивалент также может иметь длину от одного до 17-ти слов. Словарь может включать до 65 тысяч словарных статей.
Пользователь системы RETRANS может создавать практически неограниченное количество своих словарей по различным тематикам, но в процессе перевода конкретного текста используется только один словарь. При необходимости, можно объединить несколько словарей в один словарь.
В интерактивном режиме работы пользователь имеет возможность просматривать все варианты перевода слов и словосочетаний содержащиеся в словарях, изменять их приоритет, добавлять новые переводные эквиваленты, а также выполнять другие операции над промежуточными результатами перевода. В промежуточных результатах перевода эквивалент, выбранный из СП, будет стоять первым в списке возможных вариантов перевода наименования понятия. Затем будут располагаться варианты перевода, выбранные из дополнительного тематического словаря, в том порядке, в котором они записаны в словаре. За ними - варианты перевода из основного политематического словаря.
Тем же авторским коллективом
разработана новая версия системы
фразеологического машинного
1. Система, работающая в среде текстового процессора MS Word 2000 (система Word Vista).
2. Система, работающая в среде Web-браузера MS Internet Explorer5.0 и выше (система Web Vista).
3. Система массового
4. Система, работающая с любыми Windows-приложениями, способными копировать текст в «Буфер Обмена» (Clipboard). Эта система получила название Clip Vista.
Система Word Vista обладает тем достоинством, что человек, имеющий опыт работы с редактором типа Word, может с помощью этой системы начать перевод текстов практически без предварительной подготовки. При этом он может пользоваться всеми возможностями редактора Word.
Система Web Vista может оказаться незаменимым средством общения с системой Internet для лиц, знающих русский язык, но не знающих английского, или, наоборот, знающих английский язык, но не знающих русского. Она может также использоваться для перевода любых документов, представленных в виде Web-страниц (например, электронной версии Британской Энциклопедии). При этом во всех случаях сохраняется внешний вид переведенной страницы.
Система Net Vista позволяет пользователям, расположенным в любой точке земного шара, осуществлять перевод текстов с русского языка на английский и с английского на русский в режиме удаленного доступа к этой системе. При этом сами текстовые документы могут храниться в любой другой точке земного шара, а перевод выполняться в третьей точке.
Система Clip Vista может быть полезна при работе с простыми программами типа MS Notepad, MS Wordpad, MS Paint и им подобными, а также при обработке различных электронных форм, например, при заполнении резюме или вводе поискового запроса, если требуется использовать другой язык.
В случае необходимости, на ЭВМ пользователя могут устанавливаться несколько модификаций системы Vista одновременно. При этом ядро процедурных средств и словарные средства системы будут установлены только в одном экземпляре.
Основные политематические машинные словари системы Vista (русско-английский и англо-русский) включают в свой состав терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу.
Кроме основных политематических машинных словарей в состав системы Vista входят двенадцать дополнительных тематических словарей, включающих лексику родственных тематик. Эти словари содержат словарные статьи только тех слов и словосочетаний из политематических словарей, которые в рамках каждой тематической группы имеют приоритетные переводные эквиваленты, отличные от приоритетных переводных эквивалентов основных словарей. В дополнительных тематических словарях лексические единицы (слова и словосочетания)могут иметь не более двух переводных эквивалентов (в политематическом словаре их может быть до пяти).
В процессе перевода текстов
поиск переводных эквивалентов лексических
единиц, входящих в их состав, ведется
в политематическом словаре и
в одном из дополнительных тематических
словарей (по выбору пользователя). При
синтезе выходного текста переводные
эквиваленты дополнительного
Машинные словари системы VISTA могут корректироваться и пополняться в процессе перевода текстов в интерактивном режиме. В этом режиме есть возможность обнаруживать слова и словосочетания, для которых в словаре не указаны переводные эквиваленты или эти эквиваленты не соответствуют контексту или указано несколько эквивалентов, но на первом месте стоит эквивалент, не соответствующий контексту. В случае отсутствия переводных эквивалентов у некоторых слов они могут быть указаны человеком; если эквиваленты не соответствуют контексту, они могут быть заменены; если их несколько, то есть возможность выбрать только те из них, которые соответствуют контексту.
Информация о работе Предметы и задачи компьютерной лингвистики