Компьютерные переводчики

Автор работы: Пользователь скрыл имя, 04 Ноября 2013 в 10:47, реферат

Краткое описание

Предметом исследования являются стилистические, грамматические и семантические особенности машинного перевода. Сегодня программы-переводчики умеют строить осмысленные фразы, и за последние несколько лет качество перевода улучшилось. Однако компьютер еще плохо разбирается в грамматических нюансах и жаргоне, поэтому его главное назначение – переводы деловых бумаг, руководств, писем из электронной почты, страничек из Internet (Web-страниц). Целью исследования является выявление , изучение и анализ особенностей машинного перевода.

Содержание

Введение
I Глава «Теоретические основы машинного перевода»
1. Искусство перевода
2. Значение перевода
3. История развития машинного перевода
4. Электронные словари
1.4.1. Классификация электронных словарей
5. Анализ машинного перевода
6. Основные проблемы программ машинного перевода
1. 1.6.1. Словарь
2. Грамматика
6. Виды программ машинного перевода
1.7.1. Офисный переводчик
2. Домашний переводчик
3. Машинный перевод в Internet
7. Преимущества программ – переводчиков
8. Практические советы
Вывод по I Главе « Теоретические основы машинного перевода»
II Глава « Практическое применение программ машинного перевода"
Вывод по II Главе «Практическое применение программ машинного перевода»
Заключение
Список литературы

Вложенные файлы: 1 файл

КОМПЬЮТЕРНЫЕ ПЕРЕВОДЧИКИ.docx

— 82.94 Кб (Скачать файл)

"Это хорошее решение, - считает  Марина Урквиди, консультант из FPH. - Многие люди предпочли бы работать не на английском, а на своем родном языке. Теперь у них есть такая возможность". Она не отрицает, что машинный перевод имеет свои недостатки, однако убеждена, что если человек захочет, он сможет понять перевод, сделанный машиной. "Если вы немного подумаете, то сумеете понять, о чем идет речь". Таким образом, если не требовать от МП слишком многого, то, возможно, обещание Бэббиджа о машинном переводе все же исполнится[34].

 

1.6.Основные проблемы программ машинного перевода

   Чем больше словарь, тем лучше перевод, значит, первая проблема – проблема создания больших словарей для систем.

   Система должна переводить  такие предложения: «Привет, как  дела?». Значит, еще одна проблема - научить систему распознавать  устойчивые обороты.

   Предложение для перевода  пишется по определенным правилам, по определенным правилам переводится,  а значит, есть еще одна проблема: записать все эти правила в  виде программы.

   Эти проблемы являются  основными при разработке систем  МП, другое дело, что методы их  решения известны далеко не  всем и отнюдь не так просты, как может показаться.

   Системы МП семейства  PROMT (PROgrammer's Machine Translation) - очень хороший объект, чтобы продемонстрировать, каким образом эти проблемы могут решаться эффективно.

 

  1.6.1. Словарь

    Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. А те из них, которых в нем нет, переносятся в текст непереведенными уже на выходе из системы, и их впоследствии переводят вручную при редактировании результатов перевода. Такие слова могут повлиять на качество перевода предложения. Дело в том, что для определения, к какой части речи относится рассматриваемое слово, система производит анализ всего предложения в целом. При этом имитируется мыслительная деятельность человека (такую систему принято называть системой с элементами искусственного интеллекта). Если значение хотя бы одного слова в предложении не определено, то это может исказить анализ всего предложения, а иногда и результаты всего перевода.

   Методы организации больших  баз данных достаточно хорошо  разработаны, но для перевода  не менее, а может быть, и  более важно правильно структурировать  информацию, которая приписывается  элементу базы, правильно выбрать  этот самый элемент. Сколько,  например, записей в словаре должно  соответствовать обыкновенному  русскому слову "программа"? И, вообще, большой словарь –  это словарь, который содержит  много словарных статей, или словарь,  который позволяет распознать  много слов из текста?

   При ближайшем рассмотрении  оказывается, что, например, существительные  в русском языке изменяются  по падежам и по числам, то  есть для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как правило, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, содержащие слова "программу", "программе", "программы" и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова "программа" с соответствующей словоформой из текста. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

   В системах семейства  PROMT разработано практически уникальное  по полноте морфологическое описание  для всех языков, с которыми  системы умеют обращаться. Оно  содержит 800 типов словоизменений  для русского языка, более 300 типов как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

   Кроме того, используемая  модель морфологии позволила  разработать экспертную систему  для пользователя – создателя  словаря. Эта система фактически  автоматизирует процедуру выделения  основы и определения типа  словоизменения при вводе новых  словарных статей.

   Однако разработка описания  морфологии позволяет решить  только проблему того, что является  заголовком словарной статьи, по  которому происходит идентификация  единицы текста и единицы словаря.  Но ведь идентификация слова  из текста со словарной статьей  происходит не ради идентификации,  как это требуется в электронных  словарях, она необходима для  выполнения программой собственно  процедур перевода. Какая же нужна  информация в словарной статье  и как должны быть описаны  правила перевода для того, чтобы  программа переводила?

 

  1.6.2. Грамматика

     С развитием МП как области прикладной лингвистики появилось множество лингвистических работ, предлагавших структуру описания свойств живого слова в словарной статье машинного словаря. При этом совершенно отдельно появлялись исследования, описывающие, например, "структуру именной группы" или "способы выражения прямого дополнения для глаголов говорения".

   Например, на основе признака "принадлежность к части речи" описывалась грамматика такого  типа:

       • именная  группа - это существительное

       • именная  группа - это прилагательное + именная  группа

       • глагольная  группа - это глагол + именная группа

       • предложение  - это именная группа + глагольная  группа

   Понятно, что некоторая  часть предложений естественного  языка описывается такой грамматикой,  но эта часть очень незначительна,  и на ее основе нельзя правильно  анализировать и переводить хоть  сколько-нибудь реальный текст.  Но зато можно использовать  эффективные методы построения  преобразователя по заданной  грамматике или, на худой конец,  написать программу, которая путем  перебора построит деревья зависимостей  для ограниченного множества  предложений.

   Стало принятым делить  системы перевода на системы  типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на  особенностях архитектурных решений для лингвистических алгоритмов.

   Алгоритмы перевода для  систем типа TRANSFER строятся как  композиция трех процессов: анализ  входного предложения в терминах  структур входного языка, преобразование  этой структуры в аналогичную  структуру выходного языка (TRANSFER) и затем синтез выходного предложения  по полученной структуре.

   Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае – разработать сам метаязык и описать естественный язык в соответствующих терминах.

   Несмотря на то, что эта  классификация существует, и в  среде разработчиков МП считается  хорошим тоном спросить, к какому  типу относится ваша система,  не было разработано еще не  одной реальной системы, основанной  на принципе INTERLINGUA.

   Поэтому анализ простых  предложений как структур, состоящих  из синтаксических единиц, выполняется  на основе фреймовых предикатных  структур, которые позволяют эффективно  выполнять преобразования. Глагол  считается для простых предложений  главным элементом и его валентности  определяют заполнение соответствующего  фрейма. Для каждого типа фреймов  существует некоторый закон преобразования  в выходной фрейм и оформление  актантов. Таким образом, осуществляется TRANSFER на уровне предложений. Анализ  сложных предложений требуется  в случае формирования согласования  времен и правильного перевода  союзов.

   Хотелось бы надеяться,  что эти сведения позволят  потенциальным пользователям систем  перевода понять, что создание  системы МП – задача не такая  уж простая, и, что называется, наукоемкая. А, следовательно, количество  действительно пригодных к использованию  систем перевода, которое может  появляться в единицу времени,  принципиально ограничено.

   В любом случае, стилистические  и грамматические огрехи машинного  перевода компенсируются потрясающей  скоростью получения его чернового  варианта.

 

   7. Виды программ машинного  перевода

 

   Когда мы переводим текст,  например с английского языка на русский, и находим в словаре незнакомое нам слово, например «computer», то, узнав, что по-русски это значит «компьютер», мы уже безошибочно напишем в зависимости от контекста: «на компьютере», «с компьютером» и т.д. То есть поставим в соответствие не ту совокупность символов, которые прочитали в словаре, а другую!

   Это связано с тем,  что существительные в русском  языке изменяются по падежам  и по числам, у одного существительного может существовать до 12 разных форм, а у глаголов и прилагательных количество различных форм, как правило, еще больше. Это означает, что в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря. И соответственно, чем больше словоформ распознает система при меньшем объеме записей в словаре, тем она совершеннее. Чтобы оценить, насколько это сложная задача, скажем, что в системе PROMT морфологическое описание, разработанное только для русского языка, содержит более 800 типов словоизменений.

   Известно, что в различных  тематиках одно и то же слово  переводится совершенно по-разному.  Например, английское слово «ram» может переводиться и как «козел», и как «паровой молот» — в зависимости от того, о чем идет речь. Поэтому, видимо, для перевода текстов, имеющих отношение к разным сферам, отраслям и т.д., нужны разные электронные словари.

 

     1.7.1.Офисный переводчик

  Итак, машинный перевод уже  довольно уверенно вошел в  повседневную жизнь современного  офиса и ни у кого не вызывает  удивления. В мире существует  очень много программ МП. У нас наиболее распространены системы PROMT 98 или Stylus (фирма ПРОМТ) и ПАРС (фирма «Лингвистика 93»). PROMT 98 (Stylus) предназначена для профессионального перевода больших объемов информации, но ее лицензионная копия достаточно дорога. Что же касается использования пиратских копий, то они, как правило, имеют всего один-два словаря с относительно небольшим количеством слов. В лицензионной же копии есть широкий выбор специализированных словарей. Таким образом, использование пиратских копий не только неэтично с моральной и правовой точек зрения, но и не позволяет получить качественный перевод многих текстов.

   Система ПАРС по некоторым  параметрам уступает Stylus, хотя для бытового использования она достаточно удобна и, что очень важно, цена ее лицензионной копии доступна (компакт-диск с этой программой и несколькими специализированными словарями стоит около $20). В продаже есть большой набор словарей к этой системе по различным темам: вычислительная техника, медицина, химия и т.д. вплоть до таких областей, как, например, лесная и бумажная промышленность. Цены на компакт-диски со специализированными словарями к системе ПАРС обычно не превышают $30, она размещается на одном CD со словарями. Эта система спокойно работает в среде Windows 3.1 и более поздних версий. Есть даже ее версия для операционной системы MS DOS, что позволяет использовать для МП устаревшие компьютеры с процессорами 80286, которые вполне пригодны для обработки текстов. В дальнейшем речь пойдет о версии ПАРС для Windows, работающей в среде операционной системы Windows 95.

   ПАРС для Windows может работать в двух режимах. В первом случае он переводит файл в формате «текст MS DOS» и результат записывает в другой файл с тем же форматом. Сам же переводимый текст готовится в другом редакторе, причем в среде Windows сделать это затруднительно, так как в ней принята другая кодировка русских букв. Кроме всего прочего, простейший формат «текст MS DOS» все реже применяется для подготовки серьезных документов.

   Гораздо удобнее другой  режим, когда программа МП работает  совместно с мощным внешним  текстовым редактором. Таким редактором  для ПАРС является Microsoft Word 6.0 for Windows. Кроме удобства появляется возможность работы с текстами в формате RTF (Rich Text Format), где записываются размеры и форма шрифтов, и эти параметры переносятся в результат перевода.

   В процессе инсталляции  ПАРС определяется наличие на  жестком диске инсталлированного  текстового редактора Word. Когда редактор успешно обнаружен при инсталляции программы МП, то в его окне наверху появляется еще одно меню – ‘Перевод’. Результат перевода представляется в редакторе как новое окно с текстом. Если сначала была инсталлирована система ПАРС, а потом уже Word, то для их совместной работы потребуется повторно осуществить выборочную инсталляцию программы перевода и элементов ее связи с внешним текстовым редактором.

   Но если перевод осуществляется  впервые после запуска программы,  перед его началом потребуется  указать используемые словари.  Зачастую пользователи могут  недооценивать применение специализированных  словарей. Однако следует вспомнить,  что переводчики при работе  со специализированными текстами  используют, как правило, словари  по соответствующей тематике, а  не произвольные.

Информация о работе Компьютерные переводчики