Існуючі системи машинного перекладу
Реферат, 25 Ноября 2013, автор: пользователь скрыл имя
Краткое описание
Характерними тенденціями розвитку сучасного суспільства є посилення процесів глобалізації та інформатизації, що призводять до збільшення й спрощення інтернаціональних зв'язків і контактів. Розширення глобальної мережі Інтернет надає всі умови для інтернаціонального спілкування - від традиційного листування до голосової та відеокомунікації. Єдиною перешкодою на цьому шляху залишається мовний бар'єр, подолання якого за допомогою традиційного перекладу не розв'язує проблеми повністю, оскільки обсяг перекладів у світі постійно зростає, і навіть збільшення кількості перекладачів не в змозі повністю задовольнити потреби в перекладах.
Содержание
Вступ 3
1 Розділ перший.Розвиток машинного перекладу 5
1.1 Історія машинного перекладу 5
1.2. Машинний переклад у сьогоденні 8
Висновок до розділу першого: 10
Розділ другий Теорія машинного перекладу 12
. 2.1Загальні відомості про машинний переклад 12
2.3. Підходи до реалізації перекладу СМП 14
Висновок до другого розділу: 18
3. Існуючі системи машинного перекладу 19
3.1 Системи автоматизованого перекладу 19
.3.2 Приклади систем машинного перекладу 22
Висновок до третього розділу: 24
Висновок 25
Список літератури: 26
Вложенные файлы: 1 файл
инф.docx
— 248.36 Кб (Скачать файл)2.3. Підходи до реалізації перекладу СМП
На основі розглянутих принципів класифікації можна запропонувати наступну типологію СМП:
1. СМП, що реалізують прямий переклад (direct translation); |
2. СМП, якi базуються на трансферi (transfer approach) |
3. СМП з мовою-посередником (interlingua approach) |
4. Статистичні СМП (statistic). |
При створенні СМП, які базуються
на використанні лінгвістичних правил
потрібне знання розпізнавання ознак
тексту, що відносяться до сфери
прагматики: жанр та стиль (наприклад,
це публіцистична стаття, вірш чи документ
встановленого зразка); область знання,
до якого текст відноситься (розпізнавання
термінології); зв'язаність частин тексту,
що не завжди описується за допомогою
синтаксичних чи лексико-семантичних
критеріїв; і т.д. Можна вважати, що для
адекватного перекладу автоматична система
повинна: - знати внутрішні структури мов,
між якими здійснюється переклад; - мати
ясне уявлення про культуру, історію, мораль,
переважні типи мислення народів, що є
носіями мови; володіти по можливості
більшим словниковим запасом, більш-менш
структурованим по областях застосування
слів (спеціальна термінологія, діалекти,ідіоматика,
сленг2); - мати явний чи інтуїтивний
тезаурус слів обох мов, тобто по даному
слову вміти запропонувати семантичні
функції від нього, такі як синонім,антонім,
конверсив, класичний атрибут, а також
уміти запропонувати похідні частини
мови від даного слова, якщо такі існують
(добро - добрий - добріше - подобрів і т.п.)..Двомовні
системи автоматичного перекладу, тобто
такі, у яких заздалегідь були задані вхідна
і вихідна мови. Згодом стали з'являтися
багатомовні системи, до яких відносяться
і ті, що здатні перекладати тільки між
двома мовами, але в обох напрямках . Двомовні
системи дозволяють виконувати найбільш
точний переклад, однак вже дуальні системи
(тобто, наприклад, російсько-англійські
та англо-російські) вимагають окремої
розробки. Ріст кількості таких систем
буде пропорційний факторіалу числа мов,
між якими повинен здійснюватися переклад.
Тому нерідко використовують методику
мови-посередника чи "шлюзів".
Мова-посередник має на увазі транзитивний переклад замість прямого: якщо ми маємо, приміром, гарну систему англо-російського перекладу, то нам набагато простіше побудувати транзитивну англо-російсько-українську систему, ніж пряму англо-українську. "Шлюз" виникає (для даного прикладу), якщо вихідний текст спочатку перекладається, скажемо, з німецької мови на англійську, потім проходить англо-російський "шлюз", і потім перекладається на українську. Звичайно, якість перекладу помітно погіршується, але такий підхід виправданий своєї прагматичністю. Якщо ми маємо n мов, відповідних одному "виходу шлюзу", і k мов, відповідних іншому, то для перекладу з однієї групи в іншу нам необхідно будувати не n*k систем, а тільки (n+k-1), кожна з яких (крім самого "шлюзу"), через спорідненість, значно простіша, ніж будь-яка з цих n*k. Для взаємодії в середині груп може використовуватися одна мова посередник (наприклад, що бере участь у "шлюзі"); тоді число потрібних систем скоротитися з n! до (n -1).Таким чином, підходи, що використовують мову-перекладач і "шлюз", виглядають дуже привабливими.
Наступним логічним
кроком напрошується створення
єдиної універсальної мови-
1. Навчання системи: береться
тренувальний корпус |
2. Експлуатація: на основі
отриманих даних для |
В якості моделі мови в системах статистичного
перекладу використовуються переважно
різні модифікації n програмної моделі,
яка стверджує, що граматичність вибору
чергового слова при формуванні тексту
визначається тільки тим, якщо (n - 1) слів
йдуть перед ним, де n - ціле позитивне число.
Ймовірність кожного n-грами визначається
за його повторюваності у тренувальному
корпусі.
Висновок до другого розділу:
Отже,ми розглянули у другому
розділі різні типи машинного
перекладу,які допомагають
3. Існуючі системи машинного
перекладу
3.1 Системи автоматизованого перекладу
Почнемо огляд із систем автоматизованого перекладу, або, як їх ще називають, автоматизованих робочих місць (далі - АРМ) перекладача.Початок опрацюванню АРМ перекладача покладено системами ALPS i Weidner . Розробники цих систем вважають, що машина в принципі не може забезпечити переклад високої якості, тому ЕОМ має допомагати перекладачеві, а не замінювати його. Сімейство Automatic Language Processing Systems.Розробники сiмейства ALPS (США, Канада) вважають, що істотним недоліком бiльшостi систем машинного перекладу є те, що вони розраховані на заміну перекладача машиною. В зв'язку з тим, що машинний продукт, одержаний засобом "роботи в нічну зміну", всеодно потребує стилістичного редагування, фiрма ALPS запропонувала у вигляді альтернативи системам МП автоматизоване робоче місце перекладача, що дозволяє підвищити продуктивність праці в чотири рази. До переваг таких систем, у першу чергу, відносяться якiснi показники перекладу та простота лiнгвiстичного забезпечення, яка спрощує, зокрема, тиражування системи. Робота в режимі діалогу з ЕОМ для перекладача потребує менше зусиль й більш цікава, ніж постредагування машинної "заготовки".
Сімейство ALPS надає різним установам можливість придбати одну з систем з апаратурним, лiнгвiстичним i програмним забезпеченням різного рівня складності чи замовити переклад. Фірма тиражує системи трьох рiвней: Selective Dictionary Lookup - система, що по слову, зазначеному користувачем, забезпечує миттєвий доступ до словникової iнформацiї. Automatic Dictionary Lookup (ADL) - система, що послівно надає перекладачеві перекладні еквіваленти з автоматичного словника i має блок морфологічного аналізу для ототожнення рiзноманiтних словоформ одного слова. Так, при появі у вхідному тексті словоформ write, wrote, written система ADL запропонує перекладачеві словникову iнформацiю по слову write. Перекладні еквіваленти, що пропонуються системою, автоматично вводяться в текст. Проте синтаксичне i морфологічне оформлення кожного речення i всього тексту на вихiднiй мові в цілому залишається за перекладачем. Система ADL передбачає переклад з англійської, французької, німецької, іспанської та iталiйської мов на ці та iншi мови латинського алфавіту.
Computer Translation System (CTS) - система, що перекладає текст по реченнях, використовуючи як словникову iнформацiю, так i правила узгодження, порядку слів тощо. Перекладач у діалоговому режимi редагує текст, одержаний від системи, уточнюючи вибір перекладних еквiвалентiв, а також стиль вихідного речення; CTS розпізнає в тексті складні конструкції та багатозначні слова й надає людині рiзноманiтнi можливості їх перекладу, а саме:
- при перекладі багатозначних слів на екрані висвітлюється контекст цього слова; в словнику допускаються коментарі, що полегшує вибір перекладеного еквівалента. Якщо перекладача не задовольняє жоден із варiантiв, наданих йому машиною, він може тут же внести зміну в словник чи дати інший переклад слова, без корегування словникової статті;
- при перекладі складних чи неоднозначних синтаксичних конструкцій система виявляє неоднозначний вислів i звертається за допомогою до перекладача, який набирає на клавiатурi правильний переклад i вводить його в машину. Після цього машина продовжує роботу над текстом до наступного "складного місця". Беззаперечною перевагою CTS є формування системою поточного словника, в якому запам'ятовуються тi переклади термiнiв, котрим перекладач віддає перевагу в даному сеансі, i виправлені помилки; система керується цією iнформацiєю до закінчення перекладу даного документу.
Системи сімейства Weidner-Системи Weidner були одними з перших АРМ перекладачів на світовому ринку. Ці системи також орiєнтованi на переклад "машина-людина" різного ступеня автоматизації, який бiльш продуктивний, ніж ручний, i, з точки зору розробників систем, на вiдмiну вiд машинного, забезпечує більш високу якість вихідного продукту.
Розроблені й функціонують
в промисловому режимі три конфiгурацiї
систем Weidner.
Перша, найбільш проста, складається з
текстового процесора i модему для телефонного
зв'язку з головною ЕОМ. У цій конфiгурацiї
використовуються персональні комп'ютери
фірми IBM i програмне забезпечення теледоступу.
Вхідний документ вводиться з клавіатури
i передається в центральний процесор
для перекладу. Залежно від вимог користувача,
перекладацька фірма, в якій установлений
центральний процесор, надає або грубий
(машинний), або частково опрацьований
людиною, або закінчений переклад вхідного
тексту. Дана конфiгурацiя є найбільш рентабельною
для органiзацiй, в яких обсяг текстів,
що перекладаються, складає до 250 тис. слів
на рік. Її використання доцільно також
для попереднього іспиту можливостей
системи, що дозволить прийняти обґрунтоване
рішення про використання в цій органiзацiї
більш складних її конфiгурацiй.
Друга конфiгурацiя системи
Weidner представляє собою самостійну систему
автоматизованого перекладу, яка працює
на персональному комп'ютері IBM. Текст
вводиться або з диску, або вручну з клавіатури.
"Грубий" машинний переклад з'являється
на екрані поряд із вхідним текстом. Перекладач
використовує запропонований переклад
як заготовку, з якої він формує остаточний
варіант, користуючись системними засобами
додання, вилучення, перестановки та заміни
слів i виразів. Система поставляється
з автоматичним словником, що покриває
95% загальновживаної лексики. Користувач
може доповнити словник спеціальною термiнологiєю.
Обсяг словника складає понад 40 тис. слів
i словосполучень. Третя, найбільш потужна
конфiгурацiя системи Weidner працює на мiнi-ЕОМ
VAX серiї Digital PDP/11, пов'язаних з будь-якою
кiлькiстю персональних комп'ютерів IBM,
якi виконують функції інтелектуальних
термiналiв. Процес перекладу аналогічний
роботі другої конфiгурацiї, але при цьому
швидкість зростає в три рази. Передбачено
підключення рiзноманiтних периферійних
приладів - фотонабору, введення тощо.
Персональні комп'ютери можуть самостійно
використовуватися для процедур редагування,
звільняючи на цей час центральний процесор.
Переклад на базі мiнi-ЕОМ розрахований
на обробку великого обсягу iнформацiї,
до десятків мiльйонiв слів на рік. Ця конфiгурація
є особливо ефективною при роботі у великих
перекладацьких установах.
Серед мов, з яких i на якi можливий переклад,
розробники зазначають англійську, французьку,
іспанську, німецьку, португальську, арабську
та ін.
Розробники систем Weidner бачать три напрямки
розвитку своїх систем:
- постійне вдосконалення програмного
i лiнгвiстичного забезпечення, поширення
словників, ускладнення апарату синтаксичного
аналізу; збільшення кiлькостi мовних пар;
- підключення системи перекладу до банків
даних i автоматизованих систем управління.