Dan Melamed, I. Models of Translational Equivalence among Words [Моделі перекладацької еквівалентності серед слів] / I. Dan Melamed // Computational linguistics. – 2000. – Vol. 26. – No. 2. – Pages 221–249. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561683#.WIH2An3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561683
Паралельні тексти (бітексти) мають характеристики, які відрізняють їх від інших видів паралельних даних. По-перше, більшість слів перекладаються лише одним словом. По-друге, бітекстова відповідність зазвичай є частковою, тобто багато слів у кожному тексті не мають чітких відповідників у другому тексті. У статті описано методи налаштування моделей статистичного перекладу для відображення цих властивостей. Оцінка на основі суджень незалежних експертів підтвердила, що налаштовані таким чином моделі перекладу значно точніші, ніж базова модель без застосування знань. У статті також показано, як статистична модель перекладу може використовувати вже існуючі знання, наявні для певних мовних пар. Продемонстровано, що навіть елементарні знання про конкретну мову, такі як відмінність між самостійними і службовими частинами мови, забезпечують значне підвищення результативності моделі перекладу при виконанні деяких завдань. Статистичні моделі, які відображають знання про предметну галузь, поєднують у собі найкращі риси раціоналістичного та емпіричного підходів.
Паралельні тексти (бітексти) мають характеристики, які відрізняють їх від інших видів паралельних даних. По-перше, більшість слів перекладаються лише одним словом. По-друге, бітекстова відповідність зазвичай є частковою, тобто багато слів у кожному тексті не мають чітких відповідників у другому тексті. У статті описано методи налаштування моделей статистичного перекладу для відображення цих властивостей. Оцінка на основі суджень незалежних експертів підтвердила, що налаштовані таким чином моделі перекладу значно точніші, ніж базова модель без застосування знань. У статті також показано, як статистична модель перекладу може використовувати вже існуючі знання, наявні для певних мовних пар. Продемонстровано, що навіть елементарні знання про конкретну мову, такі як відмінність між самостійними і службовими частинами мови, забезпечують значне підвищення результативності моделі перекладу при виконанні деяких завдань. Статистичні моделі, які відображають знання про предметну галузь, поєднують у собі найкращі риси раціоналістичного та емпіричного підходів.
Переклад Д. Попової
Och, F.J. A Systematic Comparison of Various Statistical Alignment Models [Систематичне порівняння різних статистичних моделей вирівнювання] / Franz Josef Och, Hermann Ney // Computational linguistics. – 2003. – Vol. 29. – No. 1. – Pages 19–51. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103321337421#.WIIHDn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103321337421
У статті описуються і порівнюються різні методи для обчислення вирівнювання слів за допомогою статистичних і евристичних моделей. Розглянуто п’ять моделей вирівнювання, описаних у праці П. Брауна та ін. (Brown, P., Della Pietra, S. A., Della Pietra, V., J., and Mercer, R. L., 1993), приховану марківську модель вирівнювання, методи згладжування, а також уточнення. Ці статистичні моделі порівнюються з двома евристичними моделями на основі коефіцієнта Дайса. Описано різні методи комбінування вирівнювання слів для симетризування моделей спрямованого статистичного вирівнювання. В якості критерія оцінювання використано якість отриманого вирівнювання Вітербі у порівнянні з створеним вручну вирівнюванням референцій. Для оцінки моделей використовувались німецько-англійський перекладач Verbmobil і французько-англійський корпус Hansards. Здійснено ретельний аналіз різних проектів системи статистичного вирівнювання і їх оцінка за допомогою тренувальних корпусів різних розмірів. Важливим результатом є те, що вдосконалені моделі вирівнювання з залежністю першого порядку і модель родючості дають кращі результати, ніж прості евристичні моделі. У додатку вміщено ефективний тренувальний алгоритм для моделей вирівнювання.
У статті описуються і порівнюються різні методи для обчислення вирівнювання слів за допомогою статистичних і евристичних моделей. Розглянуто п’ять моделей вирівнювання, описаних у праці П. Брауна та ін. (Brown, P., Della Pietra, S. A., Della Pietra, V., J., and Mercer, R. L., 1993), приховану марківську модель вирівнювання, методи згладжування, а також уточнення. Ці статистичні моделі порівнюються з двома евристичними моделями на основі коефіцієнта Дайса. Описано різні методи комбінування вирівнювання слів для симетризування моделей спрямованого статистичного вирівнювання. В якості критерія оцінювання використано якість отриманого вирівнювання Вітербі у порівнянні з створеним вручну вирівнюванням референцій. Для оцінки моделей використовувались німецько-англійський перекладач Verbmobil і французько-англійський корпус Hansards. Здійснено ретельний аналіз різних проектів системи статистичного вирівнювання і їх оцінка за допомогою тренувальних корпусів різних розмірів. Важливим результатом є те, що вдосконалені моделі вирівнювання з залежністю першого порядку і модель родючості дають кращі результати, ніж прості евристичні моделі. У додатку вміщено ефективний тренувальний алгоритм для моделей вирівнювання.
Переклад В. Коломієць
Tillmann, C. Word Reordering and a Dynamic Programming Beam Search Algorithm for Statistical Machine Translation [Переупорядкування слів і алгоритм променевого пошуку на основі динамічного програмування для статистичного машинного перекладу] / Christoph Tillmann, Hermann Ney // Computational linguistics. – 2003. – Vol. 29. – No. 1. – Pages 97–133. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103321337458#.WIIIgn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103321337458
В даній статті описується ефективний алгоритм променевого пошуку на основі динамічного програмування (ДП) для статистичного машинного перекладу. Алгоритм пошуку використовує модель перекладу, представлену в праці Брауна та ін. (Brown et al., 1993). Починаючи з вирішення завдання комівояжера на основі ДП, ми представляємо новий спосіб обмеження можливих переупорядкувань слів у процесі перекладу, щоб створити ефективний алгоритм пошуку. Визначено обмеження переупорядкування слів, потрібні при перекладі з німецької мови на англійську. Обмеження узагальнено і запропоновано сукупність чотирьох параметрів для контролю переупорядкування слів, котру можна легко адаптувати для перекладу інших мовних пар. Процедура променевого пошуку була успішно протестована у системі Verbmobil (німецька – англійська, у словнику 8000 слів) та у корпусі Canadian Hansards (французька – англійська, у словнику 100 000 слів). Під час виконання середнього за розміром завдання Verbmobil речення може бути перекладене за декілька секунд, кількість помилок невелика, а погіршення результатів, яке вимірюється за критерієм помилок у вживанні слів, який використовується в даній статті, не зафіксовано.
В даній статті описується ефективний алгоритм променевого пошуку на основі динамічного програмування (ДП) для статистичного машинного перекладу. Алгоритм пошуку використовує модель перекладу, представлену в праці Брауна та ін. (Brown et al., 1993). Починаючи з вирішення завдання комівояжера на основі ДП, ми представляємо новий спосіб обмеження можливих переупорядкувань слів у процесі перекладу, щоб створити ефективний алгоритм пошуку. Визначено обмеження переупорядкування слів, потрібні при перекладі з німецької мови на англійську. Обмеження узагальнено і запропоновано сукупність чотирьох параметрів для контролю переупорядкування слів, котру можна легко адаптувати для перекладу інших мовних пар. Процедура променевого пошуку була успішно протестована у системі Verbmobil (німецька – англійська, у словнику 8000 слів) та у корпусі Canadian Hansards (французька – англійська, у словнику 100 000 слів). Під час виконання середнього за розміром завдання Verbmobil речення може бути перекладене за декілька секунд, кількість помилок невелика, а погіршення результатів, яке вимірюється за критерієм помилок у вживанні слів, який використовується в даній статті, не зафіксовано.
Переклад М. Драчової
Kraaij, W. Embedding Web-Based Statistical Translation Models in Cross-Language Information Retrieval [Вбудовування моделей статистичного перекладу на основі інтернет-технологій у пошук інформації різними мовами] / Wessel Kraaij, Jian-Yun Nie, Michel Simard // Computational linguistics. – 2003. – Vol. 29. – No. 3. – Pages 381–419. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322711587#.WIIKZ33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322711587
Хоча кількість мовних пар, які обслуговують системи машинного перекладу, зростає, залишається ще багато пар, для яких немає інструментів перекладу. Одним із практичних завдань, яке потребує перекладацього забезпечення порівняно невисокої якості, є пошук інформації різними мовами (ПІРМ), адже основою діючих моделей інформаційного пошуку (ІП) і досі залишається мішок слів. Інтернет є величезним ресурсом для автоматичного створення паралельних корпусів, які можуть використовуватися для автоматичного тренування статистичних моделей перекладу. Отримані таким чином моделі перекладу можна вбудувати різними способами у модель інформаційного пошуку. У статті розглядається проблема автоматичного пошуку в паралельних текстах з Інтернету і різні способи вбудовування моделей перекладу в процес інформаційного пошуку. Експерименти на основі стандартних наборів текстів для ПІРМ свідчать, що перекладацькі моделі на основі Інтернет-технологій можуть перевершити комерційні системи машинного перекладу у завданнях ПІРМ. Ці результати відкривають можливість створення при дуже низьких затратах повністю автоматичної системи перекладу запитів для ПІРМ.
Хоча кількість мовних пар, які обслуговують системи машинного перекладу, зростає, залишається ще багато пар, для яких немає інструментів перекладу. Одним із практичних завдань, яке потребує перекладацього забезпечення порівняно невисокої якості, є пошук інформації різними мовами (ПІРМ), адже основою діючих моделей інформаційного пошуку (ІП) і досі залишається мішок слів. Інтернет є величезним ресурсом для автоматичного створення паралельних корпусів, які можуть використовуватися для автоматичного тренування статистичних моделей перекладу. Отримані таким чином моделі перекладу можна вбудувати різними способами у модель інформаційного пошуку. У статті розглядається проблема автоматичного пошуку в паралельних текстах з Інтернету і різні способи вбудовування моделей перекладу в процес інформаційного пошуку. Експерименти на основі стандартних наборів текстів для ПІРМ свідчать, що перекладацькі моделі на основі Інтернет-технологій можуть перевершити комерційні системи машинного перекладу у завданнях ПІРМ. Ці результати відкривають можливість створення при дуже низьких затратах повністю автоматичної системи перекладу запитів для ПІРМ.
Переклад В. Коломієць
Way, A. wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web [Машинний переклад із використанням Всесвітньої мережі: розробка і оцінка ефективності системи машинного перекладу на основі прецедентів, що використовує Всесвітнє павутиння] / Andy Way, Nano Gough // Computational linguistics. – 2003. – Vol. 29. – No. 3. – Pages 421–457. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322711596#.WIIKrH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322711596
Ми розробили систему машинного перекладу на основі прецедентів (Example-Based Machine Translation, скор. EBMT), що використовує Всесвітню мережу з двома різними цілями: по-перше, ми заповнюємо пам'ять системи перекладами, отриманими із розташованих у мережі систем машинного перекладу (МП) на основі правил. Вихідні ланцюжки, уведені в ці системи, було автоматично вилучено з дуже маленької підгрупи типів правил в банку дерев Penn-II. На наступних етапах отримані пари типу «оригінал – переклад» автоматично перетворюються на низку ресурсів, що підвищують ефективність процесу перекладу. Хоча результат роботи онлайн-систем МП часто містить помилки, ми продемонстрували у численних експериментах, що насправді вони можуть бути корисними при створенні високоякісних перекладів, якщо використовуються для заповнення пам'яті системи EBMT. Крім того, ми показуємо переваги систем EBMT над онлайн-системами. По-друге, незважаючи на те, що якість наявних у мережі документів сумнівна, ми доводимо ефективність використання таких ресурсів у процесі автоматичного постредагування варіантів перекладу, запропонованих нашою системою.
Ми розробили систему машинного перекладу на основі прецедентів (Example-Based Machine Translation, скор. EBMT), що використовує Всесвітню мережу з двома різними цілями: по-перше, ми заповнюємо пам'ять системи перекладами, отриманими із розташованих у мережі систем машинного перекладу (МП) на основі правил. Вихідні ланцюжки, уведені в ці системи, було автоматично вилучено з дуже маленької підгрупи типів правил в банку дерев Penn-II. На наступних етапах отримані пари типу «оригінал – переклад» автоматично перетворюються на низку ресурсів, що підвищують ефективність процесу перекладу. Хоча результат роботи онлайн-систем МП часто містить помилки, ми продемонстрували у численних експериментах, що насправді вони можуть бути корисними при створенні високоякісних перекладів, якщо використовуються для заповнення пам'яті системи EBMT. Крім того, ми показуємо переваги систем EBMT над онлайн-системами. По-друге, незважаючи на те, що якість наявних у мережі документів сумнівна, ми доводимо ефективність використання таких ресурсів у процесі автоматичного постредагування варіантів перекладу, запропонованих нашою системою.
Переклад М. Драчової
Li, H. Word Translation Disambiguation Using Bilingual Bootstrapping [Використання двомовного самоналаштування для вирішення багатозначності при перекладі слів] / Hang Li, Cong Li // Computational linguistics. – 2004. – Vol. 30. – No. 1. – Pages 1–22. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104773633367#.WIILk33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104773633367
В статті запропоновано новий метод вирішення багатозначності слів при перекладі за допомогою способу машинного навчання під назвою двомовне самоналаштування. У процесі навчання усуненню неоднозначності слів, які потрібно перекласти, двомовне самоналаштування використовує невеликий обсяг класифікованих даних і великий обсяг некласифікованих даних у мові оригіналу і у мові перекладу. Він багатократно будує класифікатори одночасно на двох мовах і підвищує їх продуктивність за допомогою класифікації некласифікованих даних двома мовами та шляхом обміну інформацією щодо класифікованих даних між двома мовами. Результати експериментів свідчать, що вирішення багатозначності слів при перекладі з допомогою двомовного самоналаштування дозволяє отримати значно кращі результати, ніж існуючі методи, в яких використовується одномовне самоналаштування.
В статті запропоновано новий метод вирішення багатозначності слів при перекладі за допомогою способу машинного навчання під назвою двомовне самоналаштування. У процесі навчання усуненню неоднозначності слів, які потрібно перекласти, двомовне самоналаштування використовує невеликий обсяг класифікованих даних і великий обсяг некласифікованих даних у мові оригіналу і у мові перекладу. Він багатократно будує класифікатори одночасно на двох мовах і підвищує їх продуктивність за допомогою класифікації некласифікованих даних двома мовами та шляхом обміну інформацією щодо класифікованих даних між двома мовами. Результати експериментів свідчать, що вирішення багатозначності слів при перекладі з допомогою двомовного самоналаштування дозволяє отримати значно кращі результати, ніж існуючі методи, в яких використовується одномовне самоналаштування.
- Переклад О. Мартинюк, М. Погребної
Nießen, S. Statistical Machine Translation with Scarce Resources Using Morpho-syntactic Information [Використання морфо-синтаксичної інформації у статистичному машинному перекладі з недостатньо великим корпусом для тренування] / Sonja Nießen, Hermann Ney // Computational linguistics. – 2004. – Vol. 30. – No. 2. – Pages 181–204. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104323093285#.WIIMTn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104323093285
У статистичному машинному перекладі відповідності між словами у мові оригіналу та мові перекладу встановлюються автоматично за допомогою паралельних корпусів, а лінгвістичні знання при формуванні базових моделей зазвичай використовуються мало або не використовуються взагалі. Зокрема, існуючі статистичні системи машинного перекладу часто розглядають різні похідні форми однієї і тієї ж леми так, ніби вони незалежні одна від одної. Двомовні корпуси для тренування можуть використовуватися ефективніше за умови детального врахування взаємозалежностей між спорідненими похідними формами. Ми пропонуємо створювати ієрархічні моделі лексиконів на основі еквівалентних класів слів. Крім цього, ми пропонуємо трансформації реструктурування на рівні речень, мета яких полягає в уподібненні порядку слів у споріднених реченнях. Ми ретельно визначили обсяг двомовних даних для тренування, необхідних для підтримання прийнятної якості машинного перекладу. Тестування сукупності запропонованих методів покращення якості перекладу в умовах обмежених ресурсів виявилось успішним. Нам вдалося зменшити кількість двомовних даних для тренування до менш ніж 10% вихідного корпусу, при цьому якість перекладу знизилась лише на 1.6%. Покращення результатів перекладу продемонстровано на двох німецько-англійських корпусах з проектів Verbmobil та Nespole!
У статистичному машинному перекладі відповідності між словами у мові оригіналу та мові перекладу встановлюються автоматично за допомогою паралельних корпусів, а лінгвістичні знання при формуванні базових моделей зазвичай використовуються мало або не використовуються взагалі. Зокрема, існуючі статистичні системи машинного перекладу часто розглядають різні похідні форми однієї і тієї ж леми так, ніби вони незалежні одна від одної. Двомовні корпуси для тренування можуть використовуватися ефективніше за умови детального врахування взаємозалежностей між спорідненими похідними формами. Ми пропонуємо створювати ієрархічні моделі лексиконів на основі еквівалентних класів слів. Крім цього, ми пропонуємо трансформації реструктурування на рівні речень, мета яких полягає в уподібненні порядку слів у споріднених реченнях. Ми ретельно визначили обсяг двомовних даних для тренування, необхідних для підтримання прийнятної якості машинного перекладу. Тестування сукупності запропонованих методів покращення якості перекладу в умовах обмежених ресурсів виявилось успішним. Нам вдалося зменшити кількість двомовних даних для тренування до менш ніж 10% вихідного корпусу, при цьому якість перекладу знизилась лише на 1.6%. Покращення результатів перекладу продемонстровано на двох німецько-англійських корпусах з проектів Verbmobil та Nespole!
Переклад О. Мартинюк
Casacuberta, F. Machine Translation with Inferred Stochastic Finite-State Transducers [Машинний переклад з допомогою автоматично побудованих стохастичних скінченних перетворювачів] / Francisco Casacuberta, Enrique Vidal // Computational linguistics. – 2004. – Vol. 30. – No. 2. – Pages 205–225. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104323093294#.WIIMi33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104323093294
Скінченні перетворювачі – це моделі, які використовуються в різних галузях розпізнавання образів та комп’ютерної лінгвістики. Однією з таких галузей є машинний переклад, у якому набувають популярності підходи з використанням автоматичної побудови моделей на основі навчальної вибірки. Скінченні перетворювачі доцільно використовувати при виконанні обмежених завдань за наявності навчальних виборок пар речень. У цій статті представлено метод автоматичної побудови скінченних перетворювачів. Даний метод спирається на формальні зв’язки між скінченними перетворювачами та граматичними моделями. Запропонований підхід передбачає застосування методів статистичного вирівнювання до корпусу для тренування, який складається із речень з їх перекладами, з метою створення набору стандартних ланцюжків, з якого виводиться ймовірна модель (наприклад, n-грам). Ця модель зрештою трансформується у скінченний перетворювач. Запропоновані методи протестовано в процесі виконання серії експериментів з машинного перекладу в рамках проекту E u Trans.
Скінченні перетворювачі – це моделі, які використовуються в різних галузях розпізнавання образів та комп’ютерної лінгвістики. Однією з таких галузей є машинний переклад, у якому набувають популярності підходи з використанням автоматичної побудови моделей на основі навчальної вибірки. Скінченні перетворювачі доцільно використовувати при виконанні обмежених завдань за наявності навчальних виборок пар речень. У цій статті представлено метод автоматичної побудови скінченних перетворювачів. Даний метод спирається на формальні зв’язки між скінченними перетворювачами та граматичними моделями. Запропонований підхід передбачає застосування методів статистичного вирівнювання до корпусу для тренування, який складається із речень з їх перекладами, з метою створення набору стандартних ланцюжків, з якого виводиться ймовірна модель (наприклад, n-грам). Ця модель зрештою трансформується у скінченний перетворювач. Запропоновані методи протестовано в процесі виконання серії експериментів з машинного перекладу в рамках проекту E u Trans.
Переклад М. Погребної
Och, F. J. The Alignment Template Approach to Statistical Machine Translation [Статистичний машинний переклад з використанням алгоритмів вирівнювання] / Franz Josef Och, Hermann Ney // Computational linguistics. – 2004. – Vol. 30. – No. 4. – Pages 417–449. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201042544884#.WIINLn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201042544884
У цій статті описується статистичний машинний переклад на основі словосполучень – переклад з використанням алгоритмів вирівнювання. Цей підхід до перекладу дозволяє встановлювати загальні відносини між словами типу «багато до багатьох». Таким чином, ця модель перекладу враховує контексти слів, також можна точно визначити зміни в порядку слів при переході від мови оригіналу до мови перекладу. Модель описується за допомогою логарифмічно-лінійного підходу до моделювання, який є узагальненням популярного методу на основі вихідного каналу. Отже, цю модель розширити легше, ніж традиційні системи статистичного машинного перекладу. Ми детально описуємо процес навчання перекладу по словосполученням, застосовані функції та алгоритм пошуку. Оцінювання цього підходу здійснюється за допомогою трьох різних проектів. За допомогою системи усного перекладу з німецької мови на англійську Verbmobil проаналізовано роль різних компонентів системи. За допомогою французько-англійського корпусу Canadian Hansards продемонстровано, що модель перекладу з використанням алгоритмів вирівнювання дає значно кращі результати, ніж модель перекладу по окремих словах. У здійсненому в 2002 році Національним інститутом стандартів і технологій (National Institute of Standards and Technology, скор. NIST) оцінюванні машинних перекладів з китайської мови на англійську зазначена система досягла статистично істотно вищого показника NIST, ніж усі інші конкуруючі дослідницькі й комерційні системи перекладу.
У цій статті описується статистичний машинний переклад на основі словосполучень – переклад з використанням алгоритмів вирівнювання. Цей підхід до перекладу дозволяє встановлювати загальні відносини між словами типу «багато до багатьох». Таким чином, ця модель перекладу враховує контексти слів, також можна точно визначити зміни в порядку слів при переході від мови оригіналу до мови перекладу. Модель описується за допомогою логарифмічно-лінійного підходу до моделювання, який є узагальненням популярного методу на основі вихідного каналу. Отже, цю модель розширити легше, ніж традиційні системи статистичного машинного перекладу. Ми детально описуємо процес навчання перекладу по словосполученням, застосовані функції та алгоритм пошуку. Оцінювання цього підходу здійснюється за допомогою трьох різних проектів. За допомогою системи усного перекладу з німецької мови на англійську Verbmobil проаналізовано роль різних компонентів системи. За допомогою французько-англійського корпусу Canadian Hansards продемонстровано, що модель перекладу з використанням алгоритмів вирівнювання дає значно кращі результати, ніж модель перекладу по окремих словах. У здійсненому в 2002 році Національним інститутом стандартів і технологій (National Institute of Standards and Technology, скор. NIST) оцінюванні машинних перекладів з китайської мови на англійську зазначена система досягла статистично істотно вищого показника NIST, ніж усі інші конкуруючі дослідницькі й комерційні системи перекладу.
- Переклад М. Погребної
Munteanu, D. S. Improving Machine Translation Performance by Exploiting Non-Parallel Corpora [Удосконалення машинного перекладу шляхом використання непаралельних корпусів] / Dragos Stefan Munteanu, Daniel Marcu // Computational linguistics. – 2005. – Vol. 31. – No. 4. – Pages 477–504. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120105775299168#.WIIN0X3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120105775299168
Ми пропонуємо новий метод для виявлення паралельних речень у порівняльних, непаралельних корпусах. Ми навчаємо класифікатор максимальної ентропії достовірно визначати, чи є пара речень перекладами один одного. Використовуючи цей підхід, ми отримуємо паралельні дані з великих непаралельних корпусів газет китайською, арабською і англійською мовами. Ми здійснюємо оцінку якості отриманих даних, демонструючи, що вони підвищують продуктивність сучасної статистичної системи машинного перекладу. Ми також показуємо, що можна створити якісну систему машинного перекладу з нуля, маючи дуже малий за обсягом паралельний корпус (100 000 слів) та використовуючи великі непаралельні корпуси. Отже, наш метод можна ефективно застосовувати для мовних пар, для яких наявна дуже обмежена кількість ресурсів.
Ми пропонуємо новий метод для виявлення паралельних речень у порівняльних, непаралельних корпусах. Ми навчаємо класифікатор максимальної ентропії достовірно визначати, чи є пара речень перекладами один одного. Використовуючи цей підхід, ми отримуємо паралельні дані з великих непаралельних корпусів газет китайською, арабською і англійською мовами. Ми здійснюємо оцінку якості отриманих даних, демонструючи, що вони підвищують продуктивність сучасної статистичної системи машинного перекладу. Ми також показуємо, що можна створити якісну систему машинного перекладу з нуля, маючи дуже малий за обсягом паралельний корпус (100 000 слів) та використовуючи великі непаралельні корпуси. Отже, наш метод можна ефективно застосовувати для мовних пар, для яких наявна дуже обмежена кількість ресурсів.
Переклад Т. Павлущенко, М. Погребної
Mariño, J. B. N-gram-based Machine Translation [Машинний переклад на основі N-грамів] / José B. Mariño, Rafael E. Banchs, Josep M. Crego, Adrià de Gispert, Patrik Lambert, José A. R. Fonollosa, Marta R. Costa-jussà // Computational linguistics. – 2006. – Vol. 32. – No. 4. – Pages 527–549. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.527#.WIIOM33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.4.527
У цій статті детально описано статистичний машинний переклад із застосуванням n-грамів. Цей підхід полягає у логлінійній комбінації моделі перекладу на основі n-грамів двомовних одиниць, які називають кортежами, з чотирма особливими функціями. Якість перекладу, яка є однією з найкращих сьогодні, продемонстровано за допомогою перекладів пленарних засідань Європейського парламенту (European Parliament Plenary Sessions, скор. EPPS) з іспанської на англійську та з англійської на іспанську.
У цій статті детально описано статистичний машинний переклад із застосуванням n-грамів. Цей підхід полягає у логлінійній комбінації моделі перекладу на основі n-грамів двомовних одиниць, які називають кортежами, з чотирма особливими функціями. Якість перекладу, яка є однією з найкращих сьогодні, продемонстровано за допомогою перекладів пленарних засідань Європейського парламенту (European Parliament Plenary Sessions, скор. EPPS) з іспанської на англійську та з англійської на іспанську.
Переклад Т. Павлущенко, М. Погребної
Ueffing, N. Word-Level Confidence Estimation for Machine Translation [Оцінка достовірності машинного перекладу на рівні слів] / Nicola Ueffing, Hermann Ney // Computational linguistics. – 2007. – Vol. 33. – No. 1. – Pages 9–40. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.1.9#.WIIOqn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.1.9
В цій статті представлено та оцінено декілька різних показників достовірності машинного перекладу на рівні слів. Ці показники використовуються для маркування кожного слова у автоматично створеному тексті перекладу як правильного чи неправильного. Всі підходи до оцінювання достовірності, представлені в цій роботі, базуються на ймовірності наступного слова. Ми пропонуємо та порівнюємо різні концепції ймовірності наступного слова, а також різні способи їх розрахунку. Їх можна розділити на дві категорії: системні методи, які досліджують дані, надані системою перекладу, що генерує переклади, та прямі методи, які не залежать від системи перекладу. Системні методи використовують вихідні дані системи, такі як графи слів або списки N-кращих гіпотез. Ймовірність наступного слова визначаєтья як сума ймовірностей речень у можливому варіанті перекладу, що містить дане слово. Прямі показники достовірності спираються на інші джерела інформації, такі як словники слів або словосполучень. Їх можна також застосовувати до перекладів, виконаних нестатистичними системами машинного перекладу.
У статті представлено результати експериментального оцінювання різних показників достовірності у різних перекладацьких завданнях та для декількох мовних пар. Крім того, досліджується застосування показників достовірності для перевірки гіпотез перекладу.
В цій статті представлено та оцінено декілька різних показників достовірності машинного перекладу на рівні слів. Ці показники використовуються для маркування кожного слова у автоматично створеному тексті перекладу як правильного чи неправильного. Всі підходи до оцінювання достовірності, представлені в цій роботі, базуються на ймовірності наступного слова. Ми пропонуємо та порівнюємо різні концепції ймовірності наступного слова, а також різні способи їх розрахунку. Їх можна розділити на дві категорії: системні методи, які досліджують дані, надані системою перекладу, що генерує переклади, та прямі методи, які не залежать від системи перекладу. Системні методи використовують вихідні дані системи, такі як графи слів або списки N-кращих гіпотез. Ймовірність наступного слова визначаєтья як сума ймовірностей речень у можливому варіанті перекладу, що містить дане слово. Прямі показники достовірності спираються на інші джерела інформації, такі як словники слів або словосполучень. Їх можна також застосовувати до перекладів, виконаних нестатистичними системами машинного перекладу.
У статті представлено результати експериментального оцінювання різних показників достовірності у різних перекладацьких завданнях та для декількох мовних пар. Крім того, досліджується застосування показників достовірності для перевірки гіпотез перекладу.
Переклад Т. Павлущенко, М. Погребної
Chiang, D. Hierarchical Phrase-Based Translation [Переклад на основі складних словосполучень] / David Chiang // Computational linguistics. – 2007. – Vol. 33. – No. 2. – Pages 201–228. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.2.201#.WIIO6n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.2.201
Ми представляємо статистичну модель машинного перекладу, яка використовує складні словосполучення, що складаються з простих словосполучень. Формально вона є синхронною контекстно-вільною моделлю, але її отримують із паралельного тексту без синтаксичної розмітки. Тому її можна розглядати як сукупність основних ідей як перекладу на основі синтаксису, так і перекладу на основі словосполучень. Ми детально описуємо методи тренування та декодування нашої системи та оцінюємо її за критеріями швидкості й точності перекладу. Застосувавши алгоритм BLEU для визначення точності перекладу, ми виявили, що наша система працює значно краще, ніж «Система на основі алгоритму вирівнювання», найновіша система перекладу на основі словосполучень.
Ми представляємо статистичну модель машинного перекладу, яка використовує складні словосполучення, що складаються з простих словосполучень. Формально вона є синхронною контекстно-вільною моделлю, але її отримують із паралельного тексту без синтаксичної розмітки. Тому її можна розглядати як сукупність основних ідей як перекладу на основі синтаксису, так і перекладу на основі словосполучень. Ми детально описуємо методи тренування та декодування нашої системи та оцінюємо її за критеріями швидкості й точності перекладу. Застосувавши алгоритм BLEU для визначення точності перекладу, ми виявили, що наша система працює значно краще, ніж «Система на основі алгоритму вирівнювання», найновіша система перекладу на основі словосполучень.
- Переклад К. Погорєлова, М. Погребної
Fraser, A. Measuring Word Alignment Quality for Statistical Machine Translation [Визначення якості вирівнювання слів у статистичному машинному перекладі] / Alexander Fraser, Daniel Marcu // Computational linguistics. – 2007. – Vol. 33. – No. 3. – Pages 293–303. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.3.293#.WIIPsH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.3.293
Автоматичне вирівнювання слів відіграє важливу роль у статистичному машинному перекладі. На жаль, зв’язок між якістю вирівнювання та якістю статистичного машинного перекладу поки ще не є повністю вивченим. В останніх дослідженнях проблема вирівнювання часто розглядалась окремо від перекладацького завдання і висловлені в них припущення щодо визначення якості вирівнювання для машинного перекладу, як виявилось, не підтвердились. Зокрема, у жодній з десяти статей, опублікованих за останні 5 років, не було сказано, що значне зменшення частоти помилок вирівнювання (alignment error rate, скор. AER) призводить до суттєвого покращення якості перекладу. У даній статті подано огляд досліджень та запропоновано такі способи визначення якості вирівнювання, які дозволяють передбачити якість статистичного машинного перекладу.
Автоматичне вирівнювання слів відіграє важливу роль у статистичному машинному перекладі. На жаль, зв’язок між якістю вирівнювання та якістю статистичного машинного перекладу поки ще не є повністю вивченим. В останніх дослідженнях проблема вирівнювання часто розглядалась окремо від перекладацького завдання і висловлені в них припущення щодо визначення якості вирівнювання для машинного перекладу, як виявилось, не підтвердились. Зокрема, у жодній з десяти статей, опублікованих за останні 5 років, не було сказано, що значне зменшення частоти помилок вирівнювання (alignment error rate, скор. AER) призводить до суттєвого покращення якості перекладу. У даній статті подано огляд досліджень та запропоновано такі способи визначення якості вирівнювання, які дозволяють передбачити якість статистичного машинного перекладу.
Переклад К. Погорєлова, М. Погребної
Barrachina, S. Statistical Approaches to Computer-Assisted Translation [Статистичні підходи до автоматизованого перекладу] / Sergio Barrachina, Oliver Bender, Francisco Casacuberta, Jorge Civera, Elsa Cubel, Shahram Khadivi, Antonio Lagarda, Hermann Ney, Jesús Tomás, Enrique Vidal, Juan-Miguel Vilar // Computational linguistics. – 2009. – Vol. 35. – No. 1. – Pages 3–28. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.07-055-R2-06-29#.WIIP_33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.07-055-R2-06-29
Сучасні системи машинного перекладу (МП) все ще є недосконалими. На практиці переклади, виконані такими системами, потрібно редагувати. Для підвищення продуктивності процесу перекладу (машинний переклад плюс ручне редагування) можна включити у процес перекладу роботу людини-редактора, таким чином переходячи від машинного до автоматизованого перекладу. Така модель передбачає ітеративний процес, у якому робота людини-перекладача є частиною циклу: при кожній ітерації людина перевіряє початок перекладу (приймає або редагує його), а система вираховує найкраще (чи n-найкращі) гіпотетичне продовження перекладу для завершення цього початку. Успішною моделлю машинного перекладу є так званий статистичний машинний переклад (або розпізнавання паттернів). Цікаво, що при цьому підході адаптація систем машинного перекладу до інтерактивного сценарію впливає здебільшого на процес пошуку, уможливлюючи повторне використання ефективних методів і моделей. У цій статті обговорюється використання алгоритмів вирівнювання, моделей на основі словосполучень та стохастичних кінцевих перетворювачів для розробки систем автоматизованого перекладу. Ці системи було використано у Європейському проекті (TransType2) для виконання двох реальних завдань: перекладу інструкцій до принтерів; інструкцій і перекладу Бюлетеня Європейського Союзу. У кожному завданні здійснювався двосторонній переклад між трьома парами мов: англійська-іспанська, англійська-німецька та англійська-французька.
Сучасні системи машинного перекладу (МП) все ще є недосконалими. На практиці переклади, виконані такими системами, потрібно редагувати. Для підвищення продуктивності процесу перекладу (машинний переклад плюс ручне редагування) можна включити у процес перекладу роботу людини-редактора, таким чином переходячи від машинного до автоматизованого перекладу. Така модель передбачає ітеративний процес, у якому робота людини-перекладача є частиною циклу: при кожній ітерації людина перевіряє початок перекладу (приймає або редагує його), а система вираховує найкраще (чи n-найкращі) гіпотетичне продовження перекладу для завершення цього початку. Успішною моделлю машинного перекладу є так званий статистичний машинний переклад (або розпізнавання паттернів). Цікаво, що при цьому підході адаптація систем машинного перекладу до інтерактивного сценарію впливає здебільшого на процес пошуку, уможливлюючи повторне використання ефективних методів і моделей. У цій статті обговорюється використання алгоритмів вирівнювання, моделей на основі словосполучень та стохастичних кінцевих перетворювачів для розробки систем автоматизованого перекладу. Ці системи було використано у Європейському проекті (TransType2) для виконання двох реальних завдань: перекладу інструкцій до принтерів; інструкцій і перекладу Бюлетеня Європейського Союзу. У кожному завданні здійснювався двосторонній переклад між трьома парами мов: англійська-іспанська, англійська-німецька та англійська-французька.
Переклад М. Погребної
Wang, W. Re-structuring, Re-labeling, and Re-aligning for Syntax-Based Machine Translation [Повторні структуризація, розмітка та вирівнювання у машинному перекладі на основі синтаксису] / Wei Wang, Jonathan May, Kevin Knight, Daniel Marcu // Computational linguistics. – 2010. – Vol. 36. – No. 2. – Pages 247–277. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2010.36.2.09054#.WIIQbH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2010.36.2.09054
У даній статті показано, що структура двомовного матеріалу, опрацьованого за допомогою стандартного програмного забезпечення для синтаксичного аналізу та вирівнювання, не є оптимальною для тренування систем статистичного машинного перекладу (СМП) на основі синтаксису. Ми представляємо три модифікації даних для тренування МП з метою підвищення точності сучасних систем МП на основі синтаксису: повторна структуризація змінює синтаксичну структуру навчальних дерев залежності і робить можливим повторне використання простих структур, повторне анотування вносить зміни до поміт для розширення умов використання правил, а повторне вирівнювання уніфікує вирівнювання слів у реченнях, видаляє неправильні вирівнювання та уточнює правильні. За допомогою ЕМ-алгоритму удосконалюються структури, поміти та вирівнювання слів. Ми показуємо, що кожний окремий метод сприяє підвищенню ефективності за оцінкою BLEU, але ми також демонструємо, що шляхом поєднання цих методів можна досягти значно більшого підвищення ефективності. Ми повідомляємо про підвищення на 1.48 показника BLEU у наборі еталонів NIST08 порівняно із загальним рівнем китайсько-англійського перекладу.
У даній статті показано, що структура двомовного матеріалу, опрацьованого за допомогою стандартного програмного забезпечення для синтаксичного аналізу та вирівнювання, не є оптимальною для тренування систем статистичного машинного перекладу (СМП) на основі синтаксису. Ми представляємо три модифікації даних для тренування МП з метою підвищення точності сучасних систем МП на основі синтаксису: повторна структуризація змінює синтаксичну структуру навчальних дерев залежності і робить можливим повторне використання простих структур, повторне анотування вносить зміни до поміт для розширення умов використання правил, а повторне вирівнювання уніфікує вирівнювання слів у реченнях, видаляє неправильні вирівнювання та уточнює правильні. За допомогою ЕМ-алгоритму удосконалюються структури, поміти та вирівнювання слів. Ми показуємо, що кожний окремий метод сприяє підвищенню ефективності за оцінкою BLEU, але ми також демонструємо, що шляхом поєднання цих методів можна досягти значно більшого підвищення ефективності. Ми повідомляємо про підвищення на 1.48 показника BLEU у наборі еталонів NIST08 порівняно із загальним рівнем китайсько-англійського перекладу.
Переклад К. Погорєлова, М. Погребної
Ravi, S. Does GIZA++ Make Search Errors? [Чи робить GIZA++ пошукові помилки?] / Sujith Ravi, Kevin Knight // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 295–302. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00008#.WIIRvn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00008
Вирівнювання на рівні слів є важливою процедурою у статистичному машинному перекладі (СМП). Найпопулярніший на сьогодні алгоритм вирівнювання на рівні слів, який був використаний у додатках GIZA [Al-Onaizan et al., 1999] і GIZA++ [Och and Ney 2003] і застосований майже в кожному проекті СМП, було запропоновано у статті П. Брауна та ін. [Brown et al., 1993]. У цій статті досліджується, чи робить вказаний алгоритм помилки при обчисленні вирівнювань Вітебрі, тобто чи обчислює він вирівнювання, які згідно навченої моделі є недостатньо оптимальними.
Вирівнювання на рівні слів є важливою процедурою у статистичному машинному перекладі (СМП). Найпопулярніший на сьогодні алгоритм вирівнювання на рівні слів, який був використаний у додатках GIZA [Al-Onaizan et al., 1999] і GIZA++ [Och and Ney 2003] і застосований майже в кожному проекті СМП, було запропоновано у статті П. Брауна та ін. [Brown et al., 1993]. У цій статті досліджується, чи робить вказаний алгоритм помилки при обчисленні вирівнювань Вітебрі, тобто чи обчислює він вирівнювання, які згідно навченої моделі є недостатньо оптимальними.
Переклад В. Коломієць
Liu, Y. Discriminative Word Alignment by Linear Modeling [Дискримінативне вирівнювання слів на основі лінійного моделювання] / Yang Liu, Qun Liu, Shouxun Lin // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 303–339. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00001#.WIISO33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00001
Важливу роль у багатьох задачах обробки природної мови відіграє вирівнювання на рівні слів, оскільки воно показує відповідність між словами у паралельних текстах. Хоча для вирівнювання великих двомовних корпусів широко використовуються породжувальні моделі, їх важко розширити для включення додаткової корисної лінгвістичної інформації. У статті представлено дискримінативний підхід до вирівнювання на рівні слів на основі лінійної моделі. В рамках цього підходу всі джерела інформації розглядаються як функції-ознаки, які залежать від речення вихідною мовою, від речення цільовою мовою і вирівнювання між ними. Описано багато функцій, які могли б забезпечити симетричні вирівнювання. Запропоновану модель можна легко розширити і оптимізувати в плані безпосередньо показників оцінювання. Модель забезпечила високу якість вирівнювання на трьох конкурсних завданнях вирівнювання для п'яти мовних пар з різним ступенем схожості і доступності ресурсів. Крім того, показано, що наш підхід підвищує якість перекладу різних статистичних систем машинного перекладу.
Важливу роль у багатьох задачах обробки природної мови відіграє вирівнювання на рівні слів, оскільки воно показує відповідність між словами у паралельних текстах. Хоча для вирівнювання великих двомовних корпусів широко використовуються породжувальні моделі, їх важко розширити для включення додаткової корисної лінгвістичної інформації. У статті представлено дискримінативний підхід до вирівнювання на рівні слів на основі лінійної моделі. В рамках цього підходу всі джерела інформації розглядаються як функції-ознаки, які залежать від речення вихідною мовою, від речення цільовою мовою і вирівнювання між ними. Описано багато функцій, які могли б забезпечити симетричні вирівнювання. Запропоновану модель можна легко розширити і оптимізувати в плані безпосередньо показників оцінювання. Модель забезпечила високу якість вирівнювання на трьох конкурсних завданнях вирівнювання для п'яти мовних пар з різним ступенем схожості і доступності ресурсів. Крім того, показано, що наш підхід підвищує якість перекладу різних статистичних систем машинного перекладу.
Переклад О. Мартинюк, М. Драчової
Graça, V. J. Learning Tractable Word Alignment Models with Complex Constraints [Навчання гнучких моделей вирівнювання слів із комплексними обмеженнями] / João V. Graça, Kuzman Ganchev, Ben Taskar // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 481–504. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00007#.WIISZn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00007
Вирівнювання двомовних текстів на рівні слів є важливим ресурсом для зростаючої кількості завдань. Імовірнісні моделі вирівнювання на рівні слів забезпечують основоположний компроміс між різноманітністю визначених обмежень і кореляцій та ефективністю і гнучкістю логічних виведень. Для того щоб включити до імовірнісних моделей на етапі машинного навчання комплексні обмеження, не міняючи ефективності базової моделі, у статті використано методологію апостеріорної регуляризації (J. V. Graça, K. Ganchev, and B. Taskar, 2007). Велику увагу приділено простій і гнучкій прихованій марківській моделі, а також описано ефективний алгоритм навчання для включення наближеної бієктивності і обмежень симетричності. Моделі, обчислені з цими обмеженнями, дають значне підвищення продуктивності, про що свідчать показники і повноти, і точності анотованих вручну вирівнювань для шести пар мов. Також описано експерименти з двома різними завданнями, які потребують вирівнювання на рівні слів: машинним перекладом на основі словосполучень і з перенесенням синтаксису, і показано обнадійливе покращення результатів у порівнянні з традиційними методами.
Вирівнювання двомовних текстів на рівні слів є важливим ресурсом для зростаючої кількості завдань. Імовірнісні моделі вирівнювання на рівні слів забезпечують основоположний компроміс між різноманітністю визначених обмежень і кореляцій та ефективністю і гнучкістю логічних виведень. Для того щоб включити до імовірнісних моделей на етапі машинного навчання комплексні обмеження, не міняючи ефективності базової моделі, у статті використано методологію апостеріорної регуляризації (J. V. Graça, K. Ganchev, and B. Taskar, 2007). Велику увагу приділено простій і гнучкій прихованій марківській моделі, а також описано ефективний алгоритм навчання для включення наближеної бієктивності і обмежень симетричності. Моделі, обчислені з цими обмеженнями, дають значне підвищення продуктивності, про що свідчать показники і повноти, і точності анотованих вручну вирівнювань для шести пар мов. Також описано експерименти з двома різними завданнями, які потребують вирівнювання на рівні слів: машинним перекладом на основі словосполучень і з перенесенням синтаксису, і показано обнадійливе покращення результатів у порівнянні з традиційними методами.
Переклад О. Мартинюк, М. Драчової
de Gispert, A. Hierarchical Phrase-Based Translation with Weighted Finite-State Transducers and Shallow-n Grammars [Ієрархічна модель машинного перекладу на основі словосполучень зі зваженими перетворювачами із скінченним числом станів і поверховими-n граматиками] / Adrià de Gispert, Gonzalo Iglesias, Graeme Blackwood, Eduardo R. Banga, William Byrne // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 505-533. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00006#.WIIS-n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00006
У статті описано HiFST, декодер на решітковій базі для ієрархічного перекладу і вирівнювання на основі словосполучень. Декодер використовується у стандартних операціях зваженого скінченного перетворювача (англ. Weighted Finite-State Transducer, скор. WFST) як альтернатива добре відомій процедурі скорочення куба. З’ясовано, що використання WFST замість списків k-кращих зменшує обрізку в пошуках перекладу, результатом чого є зменшення кількості пошукових помилок, краща оптимізація параметрів і поліпшення якості перекладу. Пряме генерування решіток перенесень мовою перекладу може покращити наступні процедури переоцінки, даючи додаткові переваги, якщо застосовуються універсальні мовні моделі і розкодування з мінімальним байесовським ризиком. У статті також описано, як контролювати величину зони пошуку, задану правилами ієрархії. Показано, що поверхові-n граматики, конкатенація правил нижнього порядку та інші пошукові обмеження можуть допомогти налаштувати потужність системи перекладу для конкретних пар мов.
У статті описано HiFST, декодер на решітковій базі для ієрархічного перекладу і вирівнювання на основі словосполучень. Декодер використовується у стандартних операціях зваженого скінченного перетворювача (англ. Weighted Finite-State Transducer, скор. WFST) як альтернатива добре відомій процедурі скорочення куба. З’ясовано, що використання WFST замість списків k-кращих зменшує обрізку в пошуках перекладу, результатом чого є зменшення кількості пошукових помилок, краща оптимізація параметрів і поліпшення якості перекладу. Пряме генерування решіток перенесень мовою перекладу може покращити наступні процедури переоцінки, даючи додаткові переваги, якщо застосовуються універсальні мовні моделі і розкодування з мінімальним байесовським ризиком. У статті також описано, як контролювати величину зони пошуку, задану правилами ієрархії. Показано, що поверхові-n граматики, конкатенація правил нижнього порядку та інші пошукові обмеження можуть допомогти налаштувати потужність системи перекладу для конкретних пар мов.
Переклад В. Коломієць
Xiong, D. Linguistically Annotated Reordering: Evaluation and Analysis Grammars [Лінгвістично анотоване переупорядкування: граматика оцінки і аналізу] / Deyi Xiong, Min Zhang, Aiti Aw, Haizhou Li // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 535-568. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00009#.WIIksH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00009
Важлива роль у статистичному машинному перекладі на основі словосполучень належить лінгвістичним знанням. Для ефективного застосування лінгвістичних знань у переупорядкуванні словосполучень запропоновано новий підхід: лінгвістично анотоване переупорядкування (Linguistically Annotated Reordering, скор. LAR). У LAR було створено апаратні ієрархічні скелети, вузли яких наповнювались під час перекладу програмно-сумісними лінгвістичними знаннями з вихідних синтаксичних дерев. Результати експерименту із застосуванням широкомасштабних навчальних даних свідчать, що LAR співставна з переупорядкуванням на основі межових слів (boundary word-based reordering, скор. BWR) (D. Xiong, Q. Liu and S. Lin, 2006), яке є дуже ефективним лексикалізованим методом переупорядкування. Комбінація BWR і LAR дозволяє отримати додаткові дані для переупорядкування словосполучень, які разом значно покращують показники BLEU.
Для того щоб глибше зрозуміти роль лінгвістичних знань LAR у переупорядкуванні словосполучень, для автоматичного визначення руху складників у еталонному і машинному перекладах застосовано метод аналізу на основі синтаксису і узагальнено синтаксичні закономірності переупорядкування, визначені моделями переупорядкування. За допомогою запропонованого методу здійснено порівняльний аналіз, який не тільки проливає світло на роль лінгвістичних знань у переупорядкуванні словосполучень, але також виявляє нові проблеми у їх переупорядкуванні.
Важлива роль у статистичному машинному перекладі на основі словосполучень належить лінгвістичним знанням. Для ефективного застосування лінгвістичних знань у переупорядкуванні словосполучень запропоновано новий підхід: лінгвістично анотоване переупорядкування (Linguistically Annotated Reordering, скор. LAR). У LAR було створено апаратні ієрархічні скелети, вузли яких наповнювались під час перекладу програмно-сумісними лінгвістичними знаннями з вихідних синтаксичних дерев. Результати експерименту із застосуванням широкомасштабних навчальних даних свідчать, що LAR співставна з переупорядкуванням на основі межових слів (boundary word-based reordering, скор. BWR) (D. Xiong, Q. Liu and S. Lin, 2006), яке є дуже ефективним лексикалізованим методом переупорядкування. Комбінація BWR і LAR дозволяє отримати додаткові дані для переупорядкування словосполучень, які разом значно покращують показники BLEU.
Для того щоб глибше зрозуміти роль лінгвістичних знань LAR у переупорядкуванні словосполучень, для автоматичного визначення руху складників у еталонному і машинному перекладах застосовано метод аналізу на основі синтаксису і узагальнено синтаксичні закономірності переупорядкування, визначені моделями переупорядкування. За допомогою запропонованого методу здійснено порівняльний аналіз, який не тільки проливає світло на роль лінгвістичних знань у переупорядкуванні словосполучень, але також виявляє нові проблеми у їх переупорядкуванні.
Переклад В. Коломієць
Riezler, S. Query Rewriting Using Monolingual Statistical Machine Translation [Переписування пошукового запиту з використанням статистичного машинного перекладу на основі одномовного корпусу] / Stefan Riezler, Yi Liu // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 569–582. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00010#.WIITnH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00010
Довгі пошукові запити часто призводять до низької повноти веб-пошуку через одночасний пошук кількох термінів. Ймовірність знаходження відповідників у релевантних документах можна збільшити, замінивши терміни у запиті новими термінами зі схожими статистичними характеристиками. Ми порівнюємо методи, які передбачають використання журналів запитів користувача для того, щоб навчитися переписувати пошукові запити, використовуючи терміни з текстів веб-документів. Ми демонструємо, що найкращих результатів можна досягти, застосувавши підхід, який полягає у заповненні “лексичної прогалини” між запитами та веб-документами шляхом перекладу запитів із вхідної мови створених користувачем запитів на вихідну мову веб-документів. Ми тренуємо новітню модель статистичного машинного перекладу на парах запит-текстовий фрагмент з журналів запитів користувача і отримуємо нові терміни з переписаних запитів, перекладених одномовною системою перекладу. За допомогою зовнішньої оцінки результатів реального пошуку інформації у Всесвітній Мережі ми показуємо, що поєднання перекладу мови запиту на мову текстового фрагменту із мовою пошукових запитів підвищує ефективність контекстно-залежного розширення пошукового запиту в порівнянні з новітньою моделлю розширення запитів, яку тренують на одних і тих даних з журналу запитів.
Довгі пошукові запити часто призводять до низької повноти веб-пошуку через одночасний пошук кількох термінів. Ймовірність знаходження відповідників у релевантних документах можна збільшити, замінивши терміни у запиті новими термінами зі схожими статистичними характеристиками. Ми порівнюємо методи, які передбачають використання журналів запитів користувача для того, щоб навчитися переписувати пошукові запити, використовуючи терміни з текстів веб-документів. Ми демонструємо, що найкращих результатів можна досягти, застосувавши підхід, який полягає у заповненні “лексичної прогалини” між запитами та веб-документами шляхом перекладу запитів із вхідної мови створених користувачем запитів на вихідну мову веб-документів. Ми тренуємо новітню модель статистичного машинного перекладу на парах запит-текстовий фрагмент з журналів запитів користувача і отримуємо нові терміни з переписаних запитів, перекладених одномовною системою перекладу. За допомогою зовнішньої оцінки результатів реального пошуку інформації у Всесвітній Мережі ми показуємо, що поєднання перекладу мови запиту на мову текстового фрагменту із мовою пошукових запитів підвищує ефективність контекстно-залежного розширення пошукового запиту в порівнянні з новітньою моделлю розширення запитів, яку тренують на одних і тих даних з журналу запитів.
Переклад І. Снєгурова
Shen, L. String-to-Dependency Statistical Machine Translation [Статистичний машинний переклад «від ланцюжка до залежності»] / Libin Shen, Jinxi Xu, Ralph Weischedel // Computational linguistics. – 2010. – Vol. 36. – No. 4. – Pages 649–671. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00015#.WIIt633sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00015
Ми пропонуємо новий алгоритм статистичного машинного перекладу - «від ланцюжка до залежності». Під час декодування цей алгоритм використовує модель залежностей вихідної мови, щоб скористатись дистантними зв’язками між словами, які не можна змоделювати за допомогою традиційної мовної моделі на основі n-грамів,. Експерименти з використанням наборів еталонів NIST MT06 та MT08 свідчать, що даний алгоритм значно підвищує ефективність сучасної системи машинного перекладу на основі складних словосполучень, яка працює за принципом «від ланцюжка до ланцюжка».
Ми пропонуємо новий алгоритм статистичного машинного перекладу - «від ланцюжка до залежності». Під час декодування цей алгоритм використовує модель залежностей вихідної мови, щоб скористатись дистантними зв’язками між словами, які не можна змоделювати за допомогою традиційної мовної моделі на основі n-грамів,. Експерименти з використанням наборів еталонів NIST MT06 та MT08 свідчать, що даний алгоритм значно підвищує ефективність сучасної системи машинного перекладу на основі складних словосполучень, яка працює за принципом «від ланцюжка до ланцюжка».
Переклад В. Туз, М. Погребної
Popović, M. Towards Automatic Error Analysis of Machine Translation Output [На шляху до автоматичного аналізу помилок у машинному перекладі] / Maja Popović, Hermann Ney // Computational linguistics. – 2011. – Vol. 37. – No. 4. – Pages 657–688. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00072#.WIIuU33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00072
Оцінка результатів та аналіз помилок машинного перекладу є важливими, проте складними завданнями. У цій статті пропонується модель автоматичного аналізу і класифікації помилок на основі ідентифікації помилкових слів за допомогою алгоритмів для підрахунку Коефіцієнту помилкових слів (Word Error Rate, скор. WER) та Позиційно-незалежного коефіцієнту помилкових слів (Position-independent word Error Rate, скор. PER), що є найпершою спробою розробити способи автоматичної оцінки, які дозволяють отримати детальнішу інформацію про певні проблеми перекладу. Запропонований підхід дозволяє використовувати різні типи лінгвістичних знань для здійснення класифікації перекладацьких помилок багатьма різними способами. У цій статті йдеться про одну з можливих типологій, яка включає п’ять категорій помилок: неправильна форма слова, неправильний порядок слів, пропущені слова, зайві слова та неправильний добір лексики. Для кожної з категорій ми з’ясовуємо відсоток різних частин мови. Ми порівняли результати автоматичного аналізу помилок з результатами аналізу помилок вручну, щоб дослідити два можливі способи застосування: вирахування відсотка кожного типу помилок у певному перекладі для виявлення основних причин помилок у даній системі перекладу, та порівняння різних перекладів, використовуючи запропоновані категорії помилок для отримання додаткової інформації про переваги та недоліки різних систем та можливості їх удосконалення, а також плюси і мінуси застосованих способів удосконалення. Ми використовували арабсько-англійські переклади онлайн- і радіоновин та китайсько-англійські переклади онлайн-новин, отримані у рамках проекту GALE, записи засідань Європарламенту іспанською та англійською, отримані в ході проекту TC-Star, та три німецько-англійскі переклади, отримані під час четвертого Симпозіуму з машинного перекладу. Отримані нами результати добре корелюють із результатами аналізу помилок вручну і всі наші показники, за винятком зайвих слів, добре відображають як різницю між різними версіями однієї і тієї ж системи перекладу, так і між різними системами перекладу.
Оцінка результатів та аналіз помилок машинного перекладу є важливими, проте складними завданнями. У цій статті пропонується модель автоматичного аналізу і класифікації помилок на основі ідентифікації помилкових слів за допомогою алгоритмів для підрахунку Коефіцієнту помилкових слів (Word Error Rate, скор. WER) та Позиційно-незалежного коефіцієнту помилкових слів (Position-independent word Error Rate, скор. PER), що є найпершою спробою розробити способи автоматичної оцінки, які дозволяють отримати детальнішу інформацію про певні проблеми перекладу. Запропонований підхід дозволяє використовувати різні типи лінгвістичних знань для здійснення класифікації перекладацьких помилок багатьма різними способами. У цій статті йдеться про одну з можливих типологій, яка включає п’ять категорій помилок: неправильна форма слова, неправильний порядок слів, пропущені слова, зайві слова та неправильний добір лексики. Для кожної з категорій ми з’ясовуємо відсоток різних частин мови. Ми порівняли результати автоматичного аналізу помилок з результатами аналізу помилок вручну, щоб дослідити два можливі способи застосування: вирахування відсотка кожного типу помилок у певному перекладі для виявлення основних причин помилок у даній системі перекладу, та порівняння різних перекладів, використовуючи запропоновані категорії помилок для отримання додаткової інформації про переваги та недоліки різних систем та можливості їх удосконалення, а також плюси і мінуси застосованих способів удосконалення. Ми використовували арабсько-англійські переклади онлайн- і радіоновин та китайсько-англійські переклади онлайн-новин, отримані у рамках проекту GALE, записи засідань Європарламенту іспанською та англійською, отримані в ході проекту TC-Star, та три німецько-англійскі переклади, отримані під час четвертого Симпозіуму з машинного перекладу. Отримані нами результати добре корелюють із результатами аналізу помилок вручну і всі наші показники, за винятком зайвих слів, добре відображають як різницю між різними версіями однієї і тієї ж системи перекладу, так і між різними системами перекладу.
Переклад Д. Попової, М. Погребної
Baker, K. Use of Modality and Negation in Semantically-Informed Syntactic MT [Використання модальності і заперечення у синтаксичному машинному перекладі з семантичними можливостями] / Kathryn Baker, Michael Bloodgood, Bonnie J. Dorr, Chris Callison-Burch, Nathaniel W. Filardo, Christine Piatko, Lori Levin, Scott Miller // Computational linguistics. – 2012. – Vol. 38. – No. 2. – Pages 411-438. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00099#.WIIu233sSGA – Режим доступу до повнотекстової статті:
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00099
У статті описано спроби створення ресурсів і систем для машинного перекладу з семантичними можливостями, здійснені у 8-тижневій літній школі з прикладної лінгвістики, організованій у 2009 році Центром передових досліджень лінгвістичних технологій при університеті Джонса Гопкінса. Описано нову схему анотування модальності/заперечення (МЗ), створення (загальнодоступного) лексикону МЗ і двох автоматизованих розмітників МЗ, побудованих за допомогою схеми анотування і лексикону. Наша схема анотування виокремлює три компоненти модальності і заперечення: пусковий елемент (слово, яке виражає модальність або заперечення), ціль (дія, яка асоціюється з модальністю або запереченням) і володільника (суб’єкт модальності). Описано, як було напівавтоматично створено лексикон МЗ, і продемонстровано, що структурований розмітник МЗ дозволяє досягти приблизно 86% точності (в залежності від жанру) анотування стандартного набору даних Консорціуму лінгвістичних даних.
Розроблена схема анотування МЗ застосована до статистичного машинного перекладу за допомогою синтаксичної моделі, яка підтримує додавання семантичних розміток. Синтаксичні мітки, збагачені семантичними помітами, присвоюються деревам розбору у тренувальних текстах на мові перекладу шляхом щеплення дерев. Хоча стаття присвячена модальнності і запереченню, процедура щеплення дерев є загальною і допускає інші типи семантичної інформації. Цю можливість використано шляхом включення міток, створених уже існуючим розмітником, на додаток до елементів МЗ, створених розмітниками, описаними у статті. Створена система значно перевершила лінгвістично примітивну базову модель (Hiero) і досягла найвищих показників, які до цього часу досягалися на тестових даних NIST 2009 на урду і англійській. Цей результат підтверджує гіпотезу про те, що і синтаксична, і семантична інформація можуть поліпшити якість перекладу.
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00099
У статті описано спроби створення ресурсів і систем для машинного перекладу з семантичними можливостями, здійснені у 8-тижневій літній школі з прикладної лінгвістики, організованій у 2009 році Центром передових досліджень лінгвістичних технологій при університеті Джонса Гопкінса. Описано нову схему анотування модальності/заперечення (МЗ), створення (загальнодоступного) лексикону МЗ і двох автоматизованих розмітників МЗ, побудованих за допомогою схеми анотування і лексикону. Наша схема анотування виокремлює три компоненти модальності і заперечення: пусковий елемент (слово, яке виражає модальність або заперечення), ціль (дія, яка асоціюється з модальністю або запереченням) і володільника (суб’єкт модальності). Описано, як було напівавтоматично створено лексикон МЗ, і продемонстровано, що структурований розмітник МЗ дозволяє досягти приблизно 86% точності (в залежності від жанру) анотування стандартного набору даних Консорціуму лінгвістичних даних.
Розроблена схема анотування МЗ застосована до статистичного машинного перекладу за допомогою синтаксичної моделі, яка підтримує додавання семантичних розміток. Синтаксичні мітки, збагачені семантичними помітами, присвоюються деревам розбору у тренувальних текстах на мові перекладу шляхом щеплення дерев. Хоча стаття присвячена модальнності і запереченню, процедура щеплення дерев є загальною і допускає інші типи семантичної інформації. Цю можливість використано шляхом включення міток, створених уже існуючим розмітником, на додаток до елементів МЗ, створених розмітниками, описаними у статті. Створена система значно перевершила лінгвістично примітивну базову модель (Hiero) і досягла найвищих показників, які до цього часу досягалися на тестових даних NIST 2009 на урду і англійській. Цей результат підтверджує гіпотезу про те, що і синтаксична, і семантична інформація можуть поліпшити якість перекладу.
Переклад В.Коломієць
Gildea, D. On the String Translations Produced by Multi Bottom–Up Tree Transducers [Про переклади ланцюжків, виконані висхідними мультидеревовидними перетворювачами] / Daniel Gildea // Computational linguistics. – 2012. – Vol. 38. – No. 3. – Pages 673–693. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00108#.WIIxVn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00108#.VRF6NvmsU5E
Зазвичай деревовидні перетворювачі визначають як відношення між деревами, але у машинному перекладі на основі синтаксису нас насамперед цікавлять відношення між вхідним і вихідним ланцюжками на верхівках дерев розбору. Саме з цієї точки зору ми досліджуємо формальну продуктивність висхідних мультидеревовидних перетворювачів.
Зазвичай деревовидні перетворювачі визначають як відношення між деревами, але у машинному перекладі на основі синтаксису нас насамперед цікавлять відношення між вхідним і вихідним ланцюжками на верхівках дерев розбору. Саме з цієї точки зору ми досліджуємо формальну продуктивність висхідних мультидеревовидних перетворювачів.
Переклад Д. Попової, М. Погребної
Lembersky, G. Improving Statistical Machine Translation by Adapting Translation Models to Translationese [Вдосконалення статистичного машинного перекладу шляхом адаптації моделей перекладу до перекладизмів] / Gennadi Lembersky, Noam Ordan, Shuly Wintner // Computational linguistics. – 2013. – Vol. 39. – No. 4. – Pages 999–1023. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00159#.WII01X3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00159#.VRF8U_msU5E
Моделі перекладу для статистичного машинного перекладу створюються на матеріалі паралельних корпусів, які перекладають вручну. Зазвичай уважається, що паралельні тексти є симетричними: напрям перекладу вважається неістотним і тому ігнорується. Однак велика кількість досліджень у галузі перекладознавства свідчить, що напрям перекладу має значення, оскільки мова перекладу (перекладизми) має багато специфічних властивостей. Вже було продемонстровано, що таблиці словосполучень, укладені на основі паралельних корпусів, перекладених в одному напрямку із перекладацьким завданням, перевершують таблиці на основі корпусів, перекладених у зворотному напрямку.
Ми підтверджуємо, що це дійсно так, але одночасно наголошуємо на важливості використання текстів, перекладених у “неправильному” напрямку. При складанні таблиць словосполучень ми використовуємо інформацію про напрям перекладу, адаптуючи модель перекладу до специфіки перекладизмів. Ми досліджуємо два способи адаптації. По-перше, ми створюємо змішану модель шляхом інтерполяції таблиць словосполучень на основі текстів, перекладених у прямому і зворотному напрямах. Ваги для інтерполяції визначаються з допомогою мінімізування перплексії. По-друге, ми визначаємо критерії на основі ентропії, що оцінюють відповідність словосполучень мови перекладу перекладизмам, тим самим виключаючи необхідність додавання до паралельного корпусу інформації про напрям перекладу. Ми демонструємо, що використання цих критеріїв у таблицях словосполучень систем статистичного машинного перекладу призводить до стійкого, статистично істотного підвищення якості перекладу.
Моделі перекладу для статистичного машинного перекладу створюються на матеріалі паралельних корпусів, які перекладають вручну. Зазвичай уважається, що паралельні тексти є симетричними: напрям перекладу вважається неістотним і тому ігнорується. Однак велика кількість досліджень у галузі перекладознавства свідчить, що напрям перекладу має значення, оскільки мова перекладу (перекладизми) має багато специфічних властивостей. Вже було продемонстровано, що таблиці словосполучень, укладені на основі паралельних корпусів, перекладених в одному напрямку із перекладацьким завданням, перевершують таблиці на основі корпусів, перекладених у зворотному напрямку.
Ми підтверджуємо, що це дійсно так, але одночасно наголошуємо на важливості використання текстів, перекладених у “неправильному” напрямку. При складанні таблиць словосполучень ми використовуємо інформацію про напрям перекладу, адаптуючи модель перекладу до специфіки перекладизмів. Ми досліджуємо два способи адаптації. По-перше, ми створюємо змішану модель шляхом інтерполяції таблиць словосполучень на основі текстів, перекладених у прямому і зворотному напрямах. Ваги для інтерполяції визначаються з допомогою мінімізування перплексії. По-друге, ми визначаємо критерії на основі ентропії, що оцінюють відповідність словосполучень мови перекладу перекладизмам, тим самим виключаючи необхідність додавання до паралельного корпусу інформації про напрям перекладу. Ми демонструємо, що використання цих критеріїв у таблицях словосполучень систем статистичного машинного перекладу призводить до стійкого, статистично істотного підвищення якості перекладу.
Переклад І. Снєгурова, М. Погребної
Stymne, S. Generation of Compound Words in Statistical Machine Translation into Compounding Languages [Генерування складених слів у статистичному машинному перекладі на мови, схильні до утворення складених слів] / Sara Stymne, Nicola Cancedda, Lars Ahrenberg // Computational linguistics. – 2013. – Vol. 39. – No. 4. – Pages 1067–1108. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00162#.WII1p33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00162#.VSKjk_BR08k
У цій статті ми досліджуємо статистичний машинний переклад (statistical machine translation, скор. SMT) у германських мовах, зосереджуючись на обробці складених слів. Наша основна мета – уможливити генерування нових складених слів, які не зустрічались у тренувальному корпусі. Ми використовуємо метод розділення-об’єднання, при якому складені слова розділяються перед тренуванням системи статистичного машинного перекладу і об'єднуються після виконання перекладу. Такий підхід компенсує нестачу тренувальніх даних, але ризикує розмістити переклади частин складеного слова у неправильній послідовності. Він також вимагає об’єднання частин складеного слова після обробки для відтворення складених слів у вихідному перекладі. Ми пропонуємо спосіб збільшення шансів розміщення перекладених компонентів майбутнього складеного слова у суміжних позиціях та у правильному порядку, і показуємо, що це може привести до підвищення ефективності як при безпосередній перевірці, так і за стандартною системою показників якості перекладу. Ми також пропонуємо кілька нових способів об'єднання частин складеного слова на основі евристики і машинного навчання, які перевершують запропоновані раніше алгоритми. Ці способи генерують нові складені слова і їх переклади з таким же або кращим рівнем якості, що й стандартні системи. Для всіх проміжних завдань ми показуємо, що для перекладу складених слів варто для всіх проміжних завдань включати до процесу перекладу інформацію з урахуванням частин мови.
У цій статті ми досліджуємо статистичний машинний переклад (statistical machine translation, скор. SMT) у германських мовах, зосереджуючись на обробці складених слів. Наша основна мета – уможливити генерування нових складених слів, які не зустрічались у тренувальному корпусі. Ми використовуємо метод розділення-об’єднання, при якому складені слова розділяються перед тренуванням системи статистичного машинного перекладу і об'єднуються після виконання перекладу. Такий підхід компенсує нестачу тренувальніх даних, але ризикує розмістити переклади частин складеного слова у неправильній послідовності. Він також вимагає об’єднання частин складеного слова після обробки для відтворення складених слів у вихідному перекладі. Ми пропонуємо спосіб збільшення шансів розміщення перекладених компонентів майбутнього складеного слова у суміжних позиціях та у правильному порядку, і показуємо, що це може привести до підвищення ефективності як при безпосередній перевірці, так і за стандартною системою показників якості перекладу. Ми також пропонуємо кілька нових способів об'єднання частин складеного слова на основі евристики і машинного навчання, які перевершують запропоновані раніше алгоритми. Ці способи генерують нові складені слова і їх переклади з таким же або кращим рівнем якості, що й стандартні системи. Для всіх проміжних завдань ми показуємо, що для перекладу складених слів варто для всіх проміжних завдань включати до процесу перекладу інформацію з урахуванням частин мови.
Переклад М. Погребної
Gimpel, K. Phrase Dependency Machine Translation with Quasi-Synchronous Tree-to-Tree Features [Машинний переклад на основі синтаксису словосполучень з використанням квазісинхронних характеристик «дерево до дерева»] / Kevin Gimpel, Noah A. Smith // Computational linguistics. – 2014. – Vol. 40. – No. 2. – Pages 349–401. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00175#.WII2RH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00175#.VRF9F_msU5E
Останні дослідження свідчать про істотне підвищення якості перекладу завдяки використанню лінгвістичного синтаксису для мови оригіналу або мови перекладу. Однак з’ясовано, що при застосуванні синтаксису для обох мов (переклад за принципом "дерево до дерева") розбіжність у синтаксичній будові може завадити отриманню корисних правил (Ding and Palmer, 2005). Сміт і Айснер (Smith and Eisner, 2006) запропонували квазісинхронну граматику – формалізм, який аналізує неізоморфну структуру поступово, використовуючи характеристики замість жорстких обмежень. Хоча ця граматика створена для моделювання перекладу, виявилось, що її гнучкість створює проблеми при розробці реальних систем. У цій статті представлено систему машинного перекладу на основі квазі-синхронної граматики, яка працює за принципом «дерево до дерева». Основа нашого підходу – нова модель, яка поєднує словосполучення і синтаксис залежності, інтегруючи в собі переваги перекладу на основі словосполучень і на основі синтаксису. Ми повідомляємо про статистично істотне підвищення ефективності в порівнянні зі стандартними системами на основі словосполучень у п'ятьох із семи тестових наборів для чотирьох мовних пар. Ми також представляємо обнадійливі попередні результати застосування неконтрольованого синтаксичного аналізу на основі граматики залежності для машинного перекладу на основі синтаксису.
Останні дослідження свідчать про істотне підвищення якості перекладу завдяки використанню лінгвістичного синтаксису для мови оригіналу або мови перекладу. Однак з’ясовано, що при застосуванні синтаксису для обох мов (переклад за принципом "дерево до дерева") розбіжність у синтаксичній будові може завадити отриманню корисних правил (Ding and Palmer, 2005). Сміт і Айснер (Smith and Eisner, 2006) запропонували квазісинхронну граматику – формалізм, який аналізує неізоморфну структуру поступово, використовуючи характеристики замість жорстких обмежень. Хоча ця граматика створена для моделювання перекладу, виявилось, що її гнучкість створює проблеми при розробці реальних систем. У цій статті представлено систему машинного перекладу на основі квазі-синхронної граматики, яка працює за принципом «дерево до дерева». Основа нашого підходу – нова модель, яка поєднує словосполучення і синтаксис залежності, інтегруючи в собі переваги перекладу на основі словосполучень і на основі синтаксису. Ми повідомляємо про статистично істотне підвищення ефективності в порівнянні зі стандартними системами на основі словосполучень у п'ятьох із семи тестових наборів для чотирьох мовних пар. Ми також представляємо обнадійливі попередні результати застосування неконтрольованого синтаксичного аналізу на основі граматики залежності для машинного перекладу на основі синтаксису.
Переклад І. Снєгурова, М. Погребної
Allauzen, C. Pushdown Automata in Statistical Machine Translation [Автомати з магазинною пам’яттю у статистичному машинному перекладі] / Cyril Allauzen, Bill Byrne, Adrià de Gispert, Gonzalo Iglesias, Michael Riley // Computational linguistics. – 2014. – Vol. 40. – No. 3. – Pages 687–723. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00197#.WII2cn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00197#.VRF-OfmsU5E
У даній статті описується використання aвтомату з магазинною пам'яттю (МП) у контексті статистичного машинного перекладу та вирівнювання за синхронною контекстно-вільною граматикою. Ми використовуємо МП автомати для компактного представлення набору кандидатів перекладу, згенерованих граматикою для вхідного речення. Ми представляємо алгоритми заміни, склеювання, знаходження найкоротшого шляху та розширення для МП автоматів загального спрямування. Ми описуємо HiPDT – ієрархічний фразовий декодер, який використовує МП автомати та вищезгадані алгоритми. Ми порівнюємо складність цього декодера із декодером на основі кінцевих автоматів і показуємо, що МП автомати забезпечують кращі умови для точного декодування більших синхронних контекстно-вільних граматик і менших мовних моделей. Це підтверджується експериментально, шляхом вирівнювання та перекладу великої кількості текстів з китайської мови на англійську. Для перекладу ми пропонуємо декодування у два кроки, що передбачає залучення на першому кроці простішої мовної моделі для використання результатів аналізу складності МП автомату. Ми детально вивчаємо умови експерименту та компроміси, при яких HiPDT може досягти сучасного рівня результативності у масштабному статистичному машинному перекладі.
У даній статті описується використання aвтомату з магазинною пам'яттю (МП) у контексті статистичного машинного перекладу та вирівнювання за синхронною контекстно-вільною граматикою. Ми використовуємо МП автомати для компактного представлення набору кандидатів перекладу, згенерованих граматикою для вхідного речення. Ми представляємо алгоритми заміни, склеювання, знаходження найкоротшого шляху та розширення для МП автоматів загального спрямування. Ми описуємо HiPDT – ієрархічний фразовий декодер, який використовує МП автомати та вищезгадані алгоритми. Ми порівнюємо складність цього декодера із декодером на основі кінцевих автоматів і показуємо, що МП автомати забезпечують кращі умови для точного декодування більших синхронних контекстно-вільних граматик і менших мовних моделей. Це підтверджується експериментально, шляхом вирівнювання та перекладу великої кількості текстів з китайської мови на англійську. Для перекладу ми пропонуємо декодування у два кроки, що передбачає залучення на першому кроці простішої мовної моделі для використання результатів аналізу складності МП автомату. Ми детально вивчаємо умови експерименту та компроміси, при яких HiPDT може досягти сучасного рівня результативності у масштабному статистичному машинному перекладі.
Переклад В. Туз, М. Погребної
Durrani, N. The Operation Sequence Model—Combining N-Gram-Based and Phrase-Based Statistical Machine Translation [Модель послідовності операцій — поєднання машинного перекладу на основі N-грамів та фразового статистичного машинного перекладу] / Nadir Durrani, Helmut Schmid, Alexander Fraser, Philipp Koehn, Hinrich Schütze // Computational linguistics. – 2015. – Vol. 41. – No. 2. – Pages 185–214. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_002168 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00218
У статті запропоновано інноваційну модель машинного перекладу – модель послідовності операцій (МПО), яка поєднує переваги фразового статистичного машинного перекладу і статистичного машинного перекладу (СМП) на основі N-грамів, а також усуває їхні недоліки. Послідовність включає не лише операції перекладу, а й операції зміни порядку слів. Подібно до СМП на основі N-грамів, модель (i) базується на мінімальних одиницях перекладу; (ii) враховує як вихідну, так і цільову інформацію; (iii) не виходить з фразової незалежності; (iv) уникає проблеми, пов’язаної з помилковою сегментацією фраз. Подібно до фразового СМП, модель (i) здатна запам'ятовувати чинники зміни порядку слів, (ii) динамічно будує пошуковий графік, (iii) декодує під час пошуку за допомогою великих одиниць перекладу. Унікальними властивостями моделі є (i) тісне поєднання зміни порядку слів і перекладу, причому рішення щодо перекладу та зміни порядку слів залежать від n попередніх відповідних рішень, (ii) здатність послідовно моделювати локальну та дистантну зміну порядку слів. Використавши BLEU в якості показника точності перекладу, було виявлено, що при виконанні стандартних завдань із перекладу створена система працює значно краще, ніж сучасні системи фразового СМП (Moses і Phrasal) та СМП на основі N-грамів (Ncode). Компонент зміни порядку слів МПО було порівняно з моделлю зміни порядку слів Moses шляхом його інтеграції МПО у систему Moses. Результати показали, що МПО перевершує зміну порядку слів при виконанні всіх перекладацьких завдань. Виявлено, що якість перекладу вдосконалюється далі завдяки машинному навчанню узагальнених представлень з використанням МПО на основі частин мови.
У статті запропоновано інноваційну модель машинного перекладу – модель послідовності операцій (МПО), яка поєднує переваги фразового статистичного машинного перекладу і статистичного машинного перекладу (СМП) на основі N-грамів, а також усуває їхні недоліки. Послідовність включає не лише операції перекладу, а й операції зміни порядку слів. Подібно до СМП на основі N-грамів, модель (i) базується на мінімальних одиницях перекладу; (ii) враховує як вихідну, так і цільову інформацію; (iii) не виходить з фразової незалежності; (iv) уникає проблеми, пов’язаної з помилковою сегментацією фраз. Подібно до фразового СМП, модель (i) здатна запам'ятовувати чинники зміни порядку слів, (ii) динамічно будує пошуковий графік, (iii) декодує під час пошуку за допомогою великих одиниць перекладу. Унікальними властивостями моделі є (i) тісне поєднання зміни порядку слів і перекладу, причому рішення щодо перекладу та зміни порядку слів залежать від n попередніх відповідних рішень, (ii) здатність послідовно моделювати локальну та дистантну зміну порядку слів. Використавши BLEU в якості показника точності перекладу, було виявлено, що при виконанні стандартних завдань із перекладу створена система працює значно краще, ніж сучасні системи фразового СМП (Moses і Phrasal) та СМП на основі N-грамів (Ncode). Компонент зміни порядку слів МПО було порівняно з моделлю зміни порядку слів Moses шляхом його інтеграції МПО у систему Moses. Результати показали, що МПО перевершує зміну порядку слів при виконанні всіх перекладацьких завдань. Виявлено, що якість перекладу вдосконалюється далі завдяки машинному навчанню узагальнених представлень з використанням МПО на основі частин мови.
Переклад М. Дубка
Prud'hommeaux, E. Graph-Based Word Alignment for Clinical Language Evaluation [Вирівнювання за словами на основі графів для клінічної оцінки мовлення]/ Emily Prud'hommeaux, Brian Roark // Computational linguistics. – 2015. – Vol. 41. – No. 4. – Pages 549–578. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00232 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00233
Одним із останніх застосувань алгоритмів обробки природної мови є аналіз усного мовлення для діагностичних та лікувальних цілей, викликаний потребою у простих, об'єктивних та безконтактних засобах діагностики неврологічних розладів, таких як деменція. Зокрема, компонентом такого діагностичного засобу може стати автоматичний аналіз переказів оповідань, оскільки в осіб з деменцією та її частим попередником, легким когнітивним порушенням, а також з іншими нейродегенеративними і нейроонтогенетичними розладами значно погіршується здатність створювати точні та змістовні розповіді. У статті представлено метод дуже точного автоматичного оцінювання повноти переказу на основі вирівнювання переказу і вихідної розповіді на рівні слів. Запропоновано вдосконалення вирівнювання за словами в існуючих системах машинного перекладу, зокрема інноваційний метод вирівнювання за словами на основі випадкових блукань по графу, який забезпечує кращу точність вирівнювання, ніж стандартні методи вирівнювання за словами на основі максимізації очікування, лише за крихту потрібного для максимізації очікувань часу. Окрім того, характеристики оцінок повноти переказу, отриманих на основі цього високоякісного вирівнювання за словами забезпечують точність діагностичної класифікації, яка не поступається за точністю оцінкам експертів і значно перевершує точність, досягнуту за допомогою показників подібності тексту на рівні реферату, які використовуються в інших галузях опрацювання природної мови. Ці методи можна легко адаптувати до зразків спонтанного мовлення, отриманих за допомогою немовних стимулів, що свідчить про гнучкість та узагальнюваність вказаних методів.
Одним із останніх застосувань алгоритмів обробки природної мови є аналіз усного мовлення для діагностичних та лікувальних цілей, викликаний потребою у простих, об'єктивних та безконтактних засобах діагностики неврологічних розладів, таких як деменція. Зокрема, компонентом такого діагностичного засобу може стати автоматичний аналіз переказів оповідань, оскільки в осіб з деменцією та її частим попередником, легким когнітивним порушенням, а також з іншими нейродегенеративними і нейроонтогенетичними розладами значно погіршується здатність створювати точні та змістовні розповіді. У статті представлено метод дуже точного автоматичного оцінювання повноти переказу на основі вирівнювання переказу і вихідної розповіді на рівні слів. Запропоновано вдосконалення вирівнювання за словами в існуючих системах машинного перекладу, зокрема інноваційний метод вирівнювання за словами на основі випадкових блукань по графу, який забезпечує кращу точність вирівнювання, ніж стандартні методи вирівнювання за словами на основі максимізації очікування, лише за крихту потрібного для максимізації очікувань часу. Окрім того, характеристики оцінок повноти переказу, отриманих на основі цього високоякісного вирівнювання за словами забезпечують точність діагностичної класифікації, яка не поступається за точністю оцінкам експертів і значно перевершує точність, досягнуту за допомогою показників подібності тексту на рівні реферату, які використовуються в інших галузях опрацювання природної мови. Ці методи можна легко адаптувати до зразків спонтанного мовлення, отриманих за допомогою немовних стимулів, що свідчить про гнучкість та узагальнюваність вказаних методів.
Переклад М. Дубка
Ortiz-Martínez D. Online Learning for Statistical Machine Translation [Онлайн-навчання систем статистичного машинного перекладу] / Daniel Ortiz-Martínez // Computational linguistics. – 2016. – Vol. 42. – No. 1. – Pages 121–161. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00244 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00244
У статті представлено методи онлайн-навчання систем статистичного машинного перекладу (СМП). В галузі СМП зростає кількість великих наборів тренувальних даних, які безперервно збільшуються, наприклад, в контексті бюро перекладів або щоденних перекладів адміністративних розслідувань. Коли до моделей СМП потрібно включити нові знання, використання методів пакетного навчання вимагає дуже тривалого оцінювання усього набору навчання, виконання якого може розтягтися на кілька днів або тижнів. За допомогою онлайн-навчання нові навчальні приклади можуть оброблятись індивідуально в режимі реального часу. З цією метою подано визначення сучасної моделі СМП, яка складається з набору підмоделей та оновленого і розширеного набору правил для кожної з них. Для перевірки розроблених методів було досліджено дві добре відомі програми СМП, які можна використовувати в бюро перекладів – постредагування та інтерактивного машинного перекладу. В обох випадках система СМП взаємодіє з користувачем для створення високоякісних перекладів. Ці перевірені користувачем переклади можуть бути використані для розширення моделей СМП за допомогою онлайн-навчання. Емпіричні результати в двох розглянутих випадках свідчать про великий вплив частих оновлень на продуктивність системи. Також, шляхом порівняння ефективності системи СМП на основі пакетного навчання і системи онлайн-навчання, було визначено затрати часу на такі оновлення і з’ясовано, що онлайн навчання можливе в режимі реального часу, тоді як пакетне перенавчання швидко стає неможливим через затрати часу. Емпіричні результати також показали, що ефективність онлайн-навчання співставна з результативністю пакетного навчання. Крім того, запропоновані методи можуть навчатися на основі вже оцінених методів або з нуля. У статті також запропоновано дві нові міри прогнозування ефективності онлайн-навчання в завданнях СМП. Представлена тут система перекладу з можливостями онлайн-навчання реалізована в Thot, програмному забезпеченні для СМП з відкритим вихідним кодом.
У статті представлено методи онлайн-навчання систем статистичного машинного перекладу (СМП). В галузі СМП зростає кількість великих наборів тренувальних даних, які безперервно збільшуються, наприклад, в контексті бюро перекладів або щоденних перекладів адміністративних розслідувань. Коли до моделей СМП потрібно включити нові знання, використання методів пакетного навчання вимагає дуже тривалого оцінювання усього набору навчання, виконання якого може розтягтися на кілька днів або тижнів. За допомогою онлайн-навчання нові навчальні приклади можуть оброблятись індивідуально в режимі реального часу. З цією метою подано визначення сучасної моделі СМП, яка складається з набору підмоделей та оновленого і розширеного набору правил для кожної з них. Для перевірки розроблених методів було досліджено дві добре відомі програми СМП, які можна використовувати в бюро перекладів – постредагування та інтерактивного машинного перекладу. В обох випадках система СМП взаємодіє з користувачем для створення високоякісних перекладів. Ці перевірені користувачем переклади можуть бути використані для розширення моделей СМП за допомогою онлайн-навчання. Емпіричні результати в двох розглянутих випадках свідчать про великий вплив частих оновлень на продуктивність системи. Також, шляхом порівняння ефективності системи СМП на основі пакетного навчання і системи онлайн-навчання, було визначено затрати часу на такі оновлення і з’ясовано, що онлайн навчання можливе в режимі реального часу, тоді як пакетне перенавчання швидко стає неможливим через затрати часу. Емпіричні результати також показали, що ефективність онлайн-навчання співставна з результативністю пакетного навчання. Крім того, запропоновані методи можуть навчатися на основі вже оцінених методів або з нуля. У статті також запропоновано дві нові міри прогнозування ефективності онлайн-навчання в завданнях СМП. Представлена тут система перекладу з можливостями онлайн-навчання реалізована в Thot, програмному забезпеченні для СМП з відкритим вихідним кодом.
Переклад А. Шульги
Neubig, G. Optimization for Statistical Machine Translation: A Survey [Оптимізація статистичного машинного перекладу: огляд] / Graham Neubig, Taro Watanabe // Computational linguistics. – 2016. – Vol. 42. – No. 1. – Pages 1–54. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00241 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00241
Важливою складовою практично всіх сучасних систем статистичного машинного перекладу (СМП) є оптимізація параметрів систем з метою підвищення точності перекладу. У статті здійснено огляд досліджень оптимізації статистичного машинного перекладу протягом 12 років: від плідних праць, присвячених розрізнювальним моделям (F. J. Och and H. Ney, 2002) і навчанню з мінімальною вірогідністю помилок (F. J. Och, 2003) до останніх досягнень. Після короткого вступного огляду основ систем статистичного машинного перекладу у статті розглянуто багато різних алгоритмів як для пакетної, так і для онлайн-оптимізації. Зокрема розглянуто збитки, спричинені а прямою мінімізацією помилок, максимальною правдоподібністю, максимальною різницею, мінімізацію ризиків, ранжування тощо, а також прийнятні способи мінімізації цих збитків. Також проаналізовано останні досягнення, наприклад широкомасштабна оптимізація, нелінійні моделі, предметно-залежна оптимізація, а також вплив на оптимізацію критеріїв оцінки машинного перекладу або пошуку. Нарешті, розглянуто поточний стан оптимізації машинного перекладу і виділено деякі невирішені проблеми, які, ймовірно, стануть об’єктом подальших досліджень в області оптимізації машинного перекладу.
Важливою складовою практично всіх сучасних систем статистичного машинного перекладу (СМП) є оптимізація параметрів систем з метою підвищення точності перекладу. У статті здійснено огляд досліджень оптимізації статистичного машинного перекладу протягом 12 років: від плідних праць, присвячених розрізнювальним моделям (F. J. Och and H. Ney, 2002) і навчанню з мінімальною вірогідністю помилок (F. J. Och, 2003) до останніх досягнень. Після короткого вступного огляду основ систем статистичного машинного перекладу у статті розглянуто багато різних алгоритмів як для пакетної, так і для онлайн-оптимізації. Зокрема розглянуто збитки, спричинені а прямою мінімізацією помилок, максимальною правдоподібністю, максимальною різницею, мінімізацію ризиків, ранжування тощо, а також прийнятні способи мінімізації цих збитків. Також проаналізовано останні досягнення, наприклад широкомасштабна оптимізація, нелінійні моделі, предметно-залежна оптимізація, а також вплив на оптимізацію критеріїв оцінки машинного перекладу або пошуку. Нарешті, розглянуто поточний стан оптимізації машинного перекладу і виділено деякі невирішені проблеми, які, ймовірно, стануть об’єктом подальших досліджень в області оптимізації машинного перекладу.
Переклад А. Шульги
Wang P. Source Language Adaptation Approaches for Resource-Poor Machine Translation [Адаптування вихідної мови для машинного перекладу мов з недостатньою кількістю ресурсів] / Pidong Wang, Preslav Nakov, Hwee Tou Ng // Computational linguistics. – 2016. – Vol. 42. – No. 2. – Pages 277–306. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00248 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00248
Більшість мов світу мають недостатньо ресурсів для статистичного машинного перекладу. Проте, багато з них фактично споріднені з якоюсь мовою, яка має велику кількість ресурсів. Отже, у статті запропоновано три нові, незалежні від мови підходи до адаптування вихідної мови до статистичного машинного перекладу з недостатньою кількістю ресурсів. Зокрема, створено вдосконалені статистичні моделі машинного перекладу з бідної на ресурси мови (POOR) на цільову мову (TGT) шляхом адаптування і використання великого паралельного тексту спорідненою мовою, багатою на ресурси (RICH) та тією ж самою цільовою мовою TGT. За основу взято невеликий паралельний текст (POOR-TGT), з якого автоматично видобуто парафрази на рівні слова та фрази, а також різномовні морфологічні варіанти, наявні у багатій та бідній на ресурси мовах. Це дослідження має важливе значення для машинного перекладу з недостатньою кількістю ресурсів, оскільки воно може служити корисним орієнтиром для тих, хто створює системи машинного перекладу для мов з недостатньою кількістю ресурсів.
Експерименти з перекладом з індонезійської/малайської на англійську свідчать, що використання великого, адаптованого, багатого на ресурси паралельного тексту дозволило поліпшити показник BLEU на 7.26 бала у порівнянні з неадаптованим паралельним текстом і на 3.09 бала у порівнянні з вихідним невеликим паралельним текстом. Крім того, поєднання невеликого паралельного тексту (POOR–TGT) з адаптованим паралельним текстом перевершує аналогічні комбінації з неадаптованим паралельним текстом на 1,93-3,25 BLEU балів. У статті також продемонстровано можливість застосування запропонованих підходів до інших мов та інших предметних областей.
Більшість мов світу мають недостатньо ресурсів для статистичного машинного перекладу. Проте, багато з них фактично споріднені з якоюсь мовою, яка має велику кількість ресурсів. Отже, у статті запропоновано три нові, незалежні від мови підходи до адаптування вихідної мови до статистичного машинного перекладу з недостатньою кількістю ресурсів. Зокрема, створено вдосконалені статистичні моделі машинного перекладу з бідної на ресурси мови (POOR) на цільову мову (TGT) шляхом адаптування і використання великого паралельного тексту спорідненою мовою, багатою на ресурси (RICH) та тією ж самою цільовою мовою TGT. За основу взято невеликий паралельний текст (POOR-TGT), з якого автоматично видобуто парафрази на рівні слова та фрази, а також різномовні морфологічні варіанти, наявні у багатій та бідній на ресурси мовах. Це дослідження має важливе значення для машинного перекладу з недостатньою кількістю ресурсів, оскільки воно може служити корисним орієнтиром для тих, хто створює системи машинного перекладу для мов з недостатньою кількістю ресурсів.
Експерименти з перекладом з індонезійської/малайської на англійську свідчать, що використання великого, адаптованого, багатого на ресурси паралельного тексту дозволило поліпшити показник BLEU на 7.26 бала у порівнянні з неадаптованим паралельним текстом і на 3.09 бала у порівнянні з вихідним невеликим паралельним текстом. Крім того, поєднання невеликого паралельного тексту (POOR–TGT) з адаптованим паралельним текстом перевершує аналогічні комбінації з неадаптованим паралельним текстом на 1,93-3,25 BLEU балів. У статті також продемонстровано можливість застосування запропонованих підходів до інших мов та інших предметних областей.
Переклад А. Шульги
Bisazza, A. A Survey of Word Reordering in Statistical Machine Translation: Computational Models and Language Phenomena [Дослідження зміни порядку слів у статистичному машинному перекладі: обчислювальні моделі та мовні явища] / Arianna Bisazza, Marcello Federico // Computational linguistics. – 2016. – Vol. 42. – No. 2. – Pages 163–205. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00245 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00245
Зміна порядку слів є одним із найскладніших аспектів статистичного машинного перекладу (СМП) і важливим фактором його якості та ефективності. Незважаючи на велику кількість досліджень, опублікованих до сьогодні, інтерес дослідників до цієї проблеми не зменшився, і жоден окремий метод не видається сильно домінуючим у всіх мовних парах. Натомість, вибір оптимального підходу до нового перекладу все ще, здається, диктується переважно емпіричними випробуваннями.
Для того, щоб зорієнтувати читача в цій великій і складній галузі досліджень, у статті представлено докладне дослідження зміни порядку слів, яке розглядається як задача статистичного моделювання та як явище природної мови. У дослідженні детально описано, як моделюється зміна порядку слів в рамках різноманітних методів СМП на основі стрічок і дерев і в якості окремого завдання, включаючи системні огляди літератури в галузі передового моделювання зміни порядку слів.
Також досліджено, чому одні підходи є більш ефективними, ніж інші, для різних мовних пар. У статті стверджується, що окрім вимірювання глибини зміни порядку слів, важливо розуміти, які види зміни порядку слів відбуваються в певній мовній парі. З цією метою проведено якісний аналіз явищ зміни порядку слів у різних зразках мовних пар на основі великої колекції мовних знань. Показано, що емпіричні результати в літературі по СМП підтверджують гіпотезу про те, що декілька лінгвістичних фактів можуть бути дуже корисними для прогнозування характеристик зміни порядку слів для мовної пари та для вибору методу СМП, який найкраще підходить для них.
Зміна порядку слів є одним із найскладніших аспектів статистичного машинного перекладу (СМП) і важливим фактором його якості та ефективності. Незважаючи на велику кількість досліджень, опублікованих до сьогодні, інтерес дослідників до цієї проблеми не зменшився, і жоден окремий метод не видається сильно домінуючим у всіх мовних парах. Натомість, вибір оптимального підходу до нового перекладу все ще, здається, диктується переважно емпіричними випробуваннями.
Для того, щоб зорієнтувати читача в цій великій і складній галузі досліджень, у статті представлено докладне дослідження зміни порядку слів, яке розглядається як задача статистичного моделювання та як явище природної мови. У дослідженні детально описано, як моделюється зміна порядку слів в рамках різноманітних методів СМП на основі стрічок і дерев і в якості окремого завдання, включаючи системні огляди літератури в галузі передового моделювання зміни порядку слів.
Також досліджено, чому одні підходи є більш ефективними, ніж інші, для різних мовних пар. У статті стверджується, що окрім вимірювання глибини зміни порядку слів, важливо розуміти, які види зміни порядку слів відбуваються в певній мовній парі. З цією метою проведено якісний аналіз явищ зміни порядку слів у різних зразках мовних пар на основі великої колекції мовних знань. Показано, що емпіричні результати в літературі по СМП підтверджують гіпотезу про те, що декілька лінгвістичних фактів можуть бути дуже корисними для прогнозування характеристик зміни порядку слів для мовної пари та для вибору методу СМП, який найкраще підходить для них.
Переклад М. Дубка
Deng, D. Translation Divergences in Chinese–English Machine Translation: An Empirical Investigation [Перекладацькі розбіжності в китайсько-англійському машинному перекладі: емпіричне дослідження] / Dun Deng, Nianwen Xue // Computational linguistics. – 2017. – Vol. 43. – No. 3. – Pages 521–565. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00292 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00292
У статті здійснено емпіричне дослідження перекладацьких розбіжностей між китайською та англійською мовами на базі паралельного банку дерев. З цією метою спочатку було розроблено схему ієрархічного вирівнювання, в якій завдяки вирівнюванню китайських та англійських синтаксичних дерев усуваються надмірності та конфлікти між вирівнюванням слів і синтаксичних дерев, щоб запобігти появі випадкових перекладацьких розбіжностей. Використання цього ієрархічно вирівняного китайсько-англійського паралельного банку дерев HACEPT уможливило напівавтоматичну ідентифікацію та категоризацію перекладацьких розбіжностей між двома мовами і квантифікацію кожного типу перекладацьких розбіжностей. Результати дослідження свідчать, що перекладацькі розбіжності є значно ширшими, ніж описано в попередніх дослідженнях, які переважно базуються на фрагментарних даних та лінгвістичних знаннях. Дистрибуція перекладацьких розбіжностей також показує, що деякі відомі перекладацькі розбіжності, які мотивували попередні дослідження, насправді дуже рідко трапляються серед даних цього дослідження, тоді як інші перекладацькі розбіжності, яким раніше приділялося мало уваги, насправді наявні у великих кількостях. Також показано, що банк дерев HACEPT дозволяє виводити правила перекладу на основі синтаксису, більшість з яких є достатньо конкретними, щоб відобразити перекладацькі розбіжності, і зазначено, що синтаксична розмітка в існуючих банках дерев не є оптимальною для виведення таких правил перекладу. Також описано наслідки цього дослідження для спроб подолати перекладацькі розбіжності шляхом розробки спільних семантичних представлень у різних мовах. Отримані кількісні результати ще раз підтверджують зауваження про те, що хоча деякі перекладацькі розбіжності можна подолати за допомогою семантичних представлень, інші перекладацькі розбіжності допускають кілька трактувань, тому побудова семантичного представлення, яке враховує всі можливі перекладацькі розбіжності, може бути недоцільною.
У статті здійснено емпіричне дослідження перекладацьких розбіжностей між китайською та англійською мовами на базі паралельного банку дерев. З цією метою спочатку було розроблено схему ієрархічного вирівнювання, в якій завдяки вирівнюванню китайських та англійських синтаксичних дерев усуваються надмірності та конфлікти між вирівнюванням слів і синтаксичних дерев, щоб запобігти появі випадкових перекладацьких розбіжностей. Використання цього ієрархічно вирівняного китайсько-англійського паралельного банку дерев HACEPT уможливило напівавтоматичну ідентифікацію та категоризацію перекладацьких розбіжностей між двома мовами і квантифікацію кожного типу перекладацьких розбіжностей. Результати дослідження свідчать, що перекладацькі розбіжності є значно ширшими, ніж описано в попередніх дослідженнях, які переважно базуються на фрагментарних даних та лінгвістичних знаннях. Дистрибуція перекладацьких розбіжностей також показує, що деякі відомі перекладацькі розбіжності, які мотивували попередні дослідження, насправді дуже рідко трапляються серед даних цього дослідження, тоді як інші перекладацькі розбіжності, яким раніше приділялося мало уваги, насправді наявні у великих кількостях. Також показано, що банк дерев HACEPT дозволяє виводити правила перекладу на основі синтаксису, більшість з яких є достатньо конкретними, щоб відобразити перекладацькі розбіжності, і зазначено, що синтаксична розмітка в існуючих банках дерев не є оптимальною для виведення таких правил перекладу. Також описано наслідки цього дослідження для спроб подолати перекладацькі розбіжності шляхом розробки спільних семантичних представлень у різних мовах. Отримані кількісні результати ще раз підтверджують зауваження про те, що хоча деякі перекладацькі розбіжності можна подолати за допомогою семантичних представлень, інші перекладацькі розбіжності допускають кілька трактувань, тому побудова семантичного представлення, яке враховує всі можливі перекладацькі розбіжності, може бути недоцільною.
Переклад М. Дубка
Joty S. Discourse Structure in Machine Translation Evaluation [Структура дискурсу в оцінюванні машинного перекладу] / Shafiq Joty, Francisco Guzmán, Lluís Màrquez, Preslav Nakov // Computational linguistics. – 2017. – Vol. 43. – No. 4. – Pages 683–722. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00298 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00298
У статті досліджуються можливості застосування структури дискурсу на рівні речення для оцінки машинного перекладу. Спочатку визначено критерії подібності з урахуванням структури дискурсу, які, відповідно до теорії риторичної структури (ТРС), використовують ядра усіх піддерев для порівняння синтаксичного анотування дискурсу. Далі продемонстровано, що проста лінійна комбінація з цими критеріями може допомогти поліпшити існуючі метрики оцінки машинного перекладу з точки зору кореляції з судженнями експертів і на сегментному, і на системному рівнях. Це свідчить про те, що інформація про дискурс доповнює інформацію, що використовується багатьма існуючими метриками оцінювання, і через це може братися до уваги при розробці детальніших метрик оцінювання, таких як комбінована метрика DiscoTKparty, переможниця міжнародного семінару з статистичного машинного перекладу WMT-14. Також надано детальний аналіз значущості різних елементів дискурсу та відношень із синтаксичних дерев на основі ТРС для оцінювання машинного перекладу. Зокрема, доведено, що (i) всі аспекти синтаксичного маркування на основі ТРС дискурсу є значущими, (ii) ядерність є важливішою, ніж тип відношення, і (iii) подібність синтаксичного анотування перекладу в перекладі до еталонного синтаксичного анотування дискурсу позитивно корелює з якістю перекладу.
У статті досліджуються можливості застосування структури дискурсу на рівні речення для оцінки машинного перекладу. Спочатку визначено критерії подібності з урахуванням структури дискурсу, які, відповідно до теорії риторичної структури (ТРС), використовують ядра усіх піддерев для порівняння синтаксичного анотування дискурсу. Далі продемонстровано, що проста лінійна комбінація з цими критеріями може допомогти поліпшити існуючі метрики оцінки машинного перекладу з точки зору кореляції з судженнями експертів і на сегментному, і на системному рівнях. Це свідчить про те, що інформація про дискурс доповнює інформацію, що використовується багатьма існуючими метриками оцінювання, і через це може братися до уваги при розробці детальніших метрик оцінювання, таких як комбінована метрика DiscoTKparty, переможниця міжнародного семінару з статистичного машинного перекладу WMT-14. Також надано детальний аналіз значущості різних елементів дискурсу та відношень із синтаксичних дерев на основі ТРС для оцінювання машинного перекладу. Зокрема, доведено, що (i) всі аспекти синтаксичного маркування на основі ТРС дискурсу є значущими, (ii) ядерність є важливішою, ніж тип відношення, і (iii) подібність синтаксичного анотування перекладу в перекладі до еталонного синтаксичного анотування дискурсу позитивно корелює з якістю перекладу.
Переклад А. Шульги