Існуючі системи машинного перекладу

Автор работы: Пользователь скрыл имя, 25 Ноября 2013 в 03:00, реферат

Краткое описание

Характерними тенденціями розвитку сучасного суспільства є посилення процесів глобалізації та інформатизації, що призводять до збільшення й спрощення інтернаціональних зв'язків і контактів. Розширення глобальної мережі Інтернет надає всі умови для інтернаціонального спілкування - від традиційного листування до голосової та відеокомунікації. Єдиною перешкодою на цьому шляху залишається мовний бар'єр, подолання якого за допомогою традиційного перекладу не розв'язує проблеми повністю, оскільки обсяг перекладів у світі постійно зростає, і навіть збільшення кількості перекладачів не в змозі повністю задовольнити потреби в перекладах.

Содержание

Вступ 3
1 Розділ перший.Розвиток машинного перекладу 5
1.1 Історія машинного перекладу 5
1.2. Машинний переклад у сьогоденні 8
Висновок до розділу першого: 10
Розділ другий Теорія машинного перекладу 12
. 2.1Загальні відомості про машинний переклад 12
2.3. Підходи до реалізації перекладу СМП 14
Висновок до другого розділу: 18
3. Існуючі системи машинного перекладу 19
3.1 Системи автоматизованого перекладу 19
.3.2 Приклади систем машинного перекладу 22
Висновок до третього розділу: 24
Висновок 25
Список літератури: 26

Вложенные файлы: 1 файл

инф.docx

— 248.36 Кб (Скачать файл)

2.3. Підходи до реалізації перекладу СМП

На основі розглянутих принципів класифікації можна запропонувати наступну типологію СМП:

1. СМП, що реалізують  прямий переклад (direct translation);

2. СМП, якi базуються на трансферi (transfer approach)

3. СМП з мовою-посередником (interlingua approach)

4. Статистичні СМП (statistic).


 
При створенні СМП, які базуються  на використанні лінгвістичних правил потрібне знання розпізнавання ознак  тексту, що відносяться до сфери  прагматики: жанр та стиль (наприклад, це публіцистична стаття, вірш чи документ встановленого зразка); область знання, до якого текст відноситься (розпізнавання  термінології); зв'язаність частин тексту, що не завжди описується за допомогою синтаксичних чи лексико-семантичних критеріїв; і т.д. Можна вважати, що для адекватного перекладу автоматична система повинна: - знати внутрішні структури мов, між якими здійснюється переклад; - мати ясне уявлення про культуру, історію, мораль, переважні типи мислення народів, що є носіями мови; володіти по можливості більшим словниковим запасом, більш-менш структурованим по областях застосування слів (спеціальна термінологія, діалекти,ідіоматика, сленг2); - мати явний чи інтуїтивний тезаурус слів обох мов, тобто по даному слову вміти запропонувати семантичні функції від нього, такі як синонім,антонім, конверсив, класичний атрибут, а також уміти запропонувати похідні частини мови від даного слова, якщо такі існують (добро - добрий - добріше - подобрів і т.п.)..Двомовні системи автоматичного перекладу, тобто такі, у яких заздалегідь були задані вхідна і вихідна мови. Згодом стали з'являтися багатомовні системи, до яких відносяться і ті, що здатні перекладати тільки між двома мовами, але в обох напрямках . Двомовні системи дозволяють виконувати найбільш точний переклад, однак вже дуальні системи (тобто, наприклад, російсько-англійські та англо-російські) вимагають окремої розробки. Ріст кількості таких систем буде пропорційний факторіалу числа мов, між якими повинен здійснюватися переклад. Тому нерідко використовують методику мови-посередника чи "шлюзів".

Мова-посередник має на увазі транзитивний переклад замість прямого: якщо ми маємо, приміром, гарну систему англо-російського перекладу, то нам набагато простіше побудувати транзитивну англо-російсько-українську систему, ніж пряму англо-українську. "Шлюз" виникає (для даного прикладу), якщо вихідний текст спочатку перекладається, скажемо, з німецької мови на англійську, потім проходить англо-російський "шлюз", і потім перекладається на українську. Звичайно, якість перекладу помітно погіршується, але такий підхід виправданий своєї прагматичністю. Якщо ми маємо n мов, відповідних одному "виходу шлюзу", і k мов, відповідних іншому, то для перекладу з однієї групи в іншу нам необхідно будувати не n*k систем, а тільки (n+k-1), кожна з яких (крім самого "шлюзу"), через спорідненість, значно простіша, ніж будь-яка з цих n*k. Для взаємодії в середині груп може використовуватися одна мова посередник (наприклад, що бере участь у "шлюзі"); тоді число потрібних систем скоротитися з n! до (n -1).Таким чином, підходи, що використовують мову-перекладач і "шлюз", виглядають дуже привабливими.

 Наступним логічним  кроком напрошується створення  єдиної універсальної мови-посередника.  Саме створення, оскільки жодна  з реально існуючих мов не  годиться для повноцінного виконання  такої ролі. Ця гіпотетична мова - універсальний посередник - дістала  у літературі назву "інтерлінгва". Її створенням займалися багато  дослідницьких колективів; особливо слід зазначити гренобльську школу під керівництвом професора Буате. Зрозуміло, що інтерлінгва не має потреби в певному синтаксисі, тобто правилах перекладу значеннєвої структури в лінійний текст. Однак вона повинна, з іншого боку, бути ідеально пристосованою для вираження саме значеннєвої структури тексту. Звичайно, залучення семантичних характеристик розглядається не тільки в зв'язку з побудовою перекладу інтерлінгви. Усі діючі системи автоматичного перекладу тією чи іншою мірою використовують їх. Розроблено різні механізми відображення семантичної структури пропозиції і тексту - семантичні множники, понятійні класи, асоціативні мережі, семантичні функції і т.д. У радянській математичній лінгвістиці широкий резонанс мала робота , присвячена саме цій тематиці. Однак жодної системи автоматичного перекладу, що містить повноцінний етап семантичного аналізу, реалізовано не було. Семантична модель не виявилася спроможною повноцінно описати навіть одну мову, не говорячи вже про їх універсум. Ми уже відмічали, що поділ рівнів (етапів) аналізу тексту (речення) дуже умовний і не завжди виправданий. Очевидно, семантика не може бути відірвана від підпорядкованих їй рівнів деталізації тексту, а отже, і семантична модель не може бути незалежної від мови. Нарешті, формалізація семантики, не будучи внутрішньою властивістю її, приносить свої перекручування і проблеми. Ю.Д. Апресян писав у своєї праці: "При переході з одного рівня на іншій, більш глибокий, омонімія попереднього рівня дозволяється засобами наступного рівня, але на кожному більш глибокому рівні виникає своя омонімія. Надії на те, що використання семантичної, парадигмальної, ситуаційної, енциклопедичної чи будь-якої іншої складної інформації спростить і полегшить пошук правильної інтерпретації речення в множині формально бездоганних альтернативних інтерпретацій, ілюзорні.При статистичному підході проблема перекладу розглядається в термінах каналу з перешкодами. Уявимо собі, що нам потрібно перекласти пропозицію з англійської на російську. Принцип каналу з перешкодами пропонує нам таке пояснення відносин між англійським і російським словосполученням: англійська пропозиція являє собою не що інше, як російську пропозицію, викривлену якимось шумом. Для того, щоб відновити початкову російську пропозицію, нам потрібно знати, що саме люди зазвичай говорять по-російськи і як російські словосполучення спотворюються до стану англійської. Переклад здійснюється шляхом пошуку такої російської пропозиції, яка максимізує твори безумовної ймовірності російської пропозиції та ймовірності англійської пропозиції (оригіналу) за умови даного російської пропозиції. Згідно теореми Баєса, ця російська пропозиція є найбільш імовірним перекладом англійської:Таким чином, нам потрібна модель джерела і модель каналу, або модель мови та модель перекладу. Модель мови повинна привласнювати оцінку ймовірності будь-якій пропозиції кінцевої мови (у нашому випадку російської), а модель перекладу повинна привласнювати оцінку ймовірності пропозиції оригіналу за умови певної пропозиції на кінцеву мову.У загальному випадку система машинного перекладу працює в двох режимах:

1. Навчання системи: береться  тренувальний корпус паралельних  текстів, і за допомогою лінійного  програмування шукаються такі  значення таблиць перекладних  відповідностей, що збільшує ймовірність  (наприклад) російської частини  корпусу при наявної англійської відповідно до обраної моделі перекладу. На російській частині того ж корпусу будується модель російської мови

2. Експлуатація: на основі  отриманих даних для незнайомої  англійської пропозиції шукається російська, максимізується створення ймовірностей, що привласнюється моделлю мови і моделлю перекладу. Програма, яка використовується для такого пошуку, називається дешифратор.  


 
В якості моделі мови в системах статистичного  перекладу використовуються переважно  різні модифікації n програмної моделі, яка стверджує, що граматичність вибору чергового слова при формуванні тексту визначається тільки тим, якщо (n - 1) слів йдуть перед ним, де n - ціле позитивне число. Ймовірність кожного n-грами визначається за його повторюваності у тренувальному корпусі.

Висновок  до другого розділу:

Отже,ми розглянули у другому  розділі різні типи машинного  перекладу,які допомагають перекладачам різного фаху використовувати системи  перекладу як їм потрібно. Але ж ,знову  ж таки,машнний переклад лише допомагая  людині ,а не замінює ії.Адже поки що є багато недоліків в цих  системах,адже мова та мовлення дуже складні  поняття.

 

 
3. Існуючі системи машинного перекладу

3.1 Системи автоматизованого перекладу

Почнемо огляд із систем автоматизованого перекладу, або, як їх ще називають, автоматизованих робочих  місць (далі - АРМ) перекладача.Початок опрацюванню АРМ перекладача покладено системами ALPS i Weidner . Розробники цих систем вважають, що машина в принципі не може забезпечити переклад високої якості, тому ЕОМ має допомагати перекладачеві, а не замінювати його. Сімейство Automatic Language Processing Systems.Розробники сiмейства ALPS (США, Канада) вважають, що істотним недоліком бiльшостi систем машинного перекладу є те, що вони розраховані на заміну перекладача машиною. В зв'язку з тим, що машинний продукт, одержаний засобом "роботи в нічну зміну", всеодно потребує стилістичного редагування, фiрма ALPS запропонувала у вигляді альтернативи системам МП автоматизоване робоче місце перекладача, що дозволяє підвищити продуктивність праці в чотири рази. До переваг таких систем, у першу чергу, відносяться якiснi показники перекладу та простота лiнгвiстичного забезпечення, яка спрощує, зокрема, тиражування системи. Робота в режимі діалогу з ЕОМ для перекладача потребує менше зусиль й більш цікава, ніж постредагування машинної "заготовки".

Сімейство ALPS надає різним установам можливість придбати одну з систем з апаратурним, лiнгвiстичним i програмним забезпеченням різного рівня складності чи замовити переклад. Фірма тиражує системи трьох рiвней: Selective Dictionary Lookup - система, що по слову, зазначеному користувачем, забезпечує миттєвий доступ до словникової iнформацiї. Automatic Dictionary Lookup (ADL) - система, що послівно надає перекладачеві перекладні еквіваленти з автоматичного словника i має блок морфологічного аналізу для ототожнення рiзноманiтних словоформ одного слова. Так, при появі у вхідному тексті словоформ write, wrote, written система ADL запропонує перекладачеві словникову iнформацiю по слову write. Перекладні еквіваленти, що пропонуються системою, автоматично вводяться в текст. Проте синтаксичне i морфологічне оформлення кожного речення i всього тексту на вихiднiй мові в цілому залишається за перекладачем. Система ADL передбачає переклад з англійської, французької, німецької, іспанської та iталiйської мов на ці та iншi мови латинського алфавіту.

Computer Translation System (CTS) - система, що перекладає текст по реченнях, використовуючи як словникову iнформацiю, так i правила узгодження, порядку слів тощо. Перекладач у діалоговому режимi редагує текст, одержаний від системи, уточнюючи вибір перекладних еквiвалентiв, а також стиль вихідного речення; CTS розпізнає в тексті складні конструкції та багатозначні слова й надає людині рiзноманiтнi можливості їх перекладу, а саме:

    1. при перекладі багатозначних слів на екрані висвітлюється контекст цього слова; в словнику допускаються коментарі, що полегшує вибір перекладеного еквівалента. Якщо перекладача не задовольняє жоден із варiантiв, наданих йому машиною, він може тут же внести зміну в словник чи дати інший переклад слова, без корегування словникової статті;
    2. при перекладі складних чи неоднозначних синтаксичних конструкцій система виявляє неоднозначний вислів i звертається за допомогою до перекладача, який набирає на клавiатурi правильний переклад i вводить його в машину. Після цього машина продовжує роботу над текстом до наступного "складного місця". Беззаперечною перевагою CTS є формування системою поточного словника, в якому запам'ятовуються тi переклади термiнiв, котрим перекладач віддає перевагу в даному сеансі, i виправлені помилки; система керується цією iнформацiєю до закінчення перекладу даного документу.

Системи сімейства Weidner-Системи Weidner були одними з перших АРМ перекладачів на світовому ринку. Ці системи також орiєнтованi на переклад "машина-людина" різного ступеня автоматизації, який бiльш продуктивний, ніж ручний, i, з точки зору розробників систем, на вiдмiну вiд машинного, забезпечує більш високу якість вихідного продукту.

Розроблені й функціонують в промисловому режимі три конфiгурацiї систем Weidner.  
Перша, найбільш проста, складається з текстового процесора i модему для телефонного зв'язку з головною ЕОМ. У цій конфiгурацiї використовуються персональні комп'ютери фірми IBM i програмне забезпечення теледоступу. Вхідний документ вводиться з клавіатури i передається в центральний процесор для перекладу. Залежно від вимог користувача, перекладацька фірма, в якій установлений центральний процесор, надає або грубий (машинний), або частково опрацьований людиною, або закінчений переклад вхідного тексту. Дана конфiгурацiя є найбільш рентабельною для органiзацiй, в яких обсяг текстів, що перекладаються, складає до 250 тис. слів на рік. Її використання доцільно також для попереднього іспиту можливостей системи, що дозволить прийняти обґрунтоване рішення про використання в цій органiзацiї більш складних її конфiгурацiй.  
Друга конфiгурацiя системи Weidner представляє собою самостійну систему автоматизованого перекладу, яка працює на персональному комп'ютері IBM. Текст вводиться або з диску, або вручну з клавіатури. "Грубий" машинний переклад з'являється на екрані поряд із вхідним текстом. Перекладач використовує запропонований переклад як заготовку, з якої він формує остаточний варіант, користуючись системними засобами додання, вилучення, перестановки та заміни слів i виразів. Система поставляється з автоматичним словником, що покриває 95% загальновживаної лексики. Користувач може доповнити словник спеціальною термiнологiєю. Обсяг словника складає понад 40 тис. слів i словосполучень. Третя, найбільш потужна конфiгурацiя системи Weidner працює на мiнi-ЕОМ VAX серiї Digital PDP/11, пов'язаних з будь-якою кiлькiстю персональних комп'ютерів IBM, якi виконують функції інтелектуальних термiналiв. Процес перекладу аналогічний роботі другої конфiгурацiї, але при цьому швидкість зростає в три рази. Передбачено підключення рiзноманiтних периферійних приладів - фотонабору, введення тощо. Персональні комп'ютери можуть самостійно використовуватися для процедур редагування, звільняючи на цей час центральний процесор. Переклад на базі мiнi-ЕОМ розрахований на обробку великого обсягу iнформацiї, до десятків мiльйонiв слів на рік. Ця конфiгурація є особливо ефективною при роботі у великих перекладацьких установах.  
Серед мов, з яких i на якi можливий переклад, розробники зазначають англійську, французьку, іспанську, німецьку, португальську, арабську та ін.  
Розробники систем Weidner бачать три напрямки розвитку своїх систем:  
- постійне вдосконалення програмного i лiнгвiстичного забезпечення, поширення словників, ускладнення апарату синтаксичного аналізу; збільшення кiлькостi мовних пар; - підключення системи перекладу до банків даних i автоматизованих систем управління.

Информация о работе Існуючі системи машинного перекладу