Аналіз і синтез мовлення

Marchand, Y. A Multistrategy Approach to Improving Pronunciation by Analogy [Багатостратегійний підхід до покращення вимови за аналогією] / Yannick Marchand, Robert I. Damper // Computational linguistics. – 2000. – Vol. 26. – No. 2. – Pages 195–219. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561674#.WITHzn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561674

Вимова за аналогією (ВзА) це керований даними метод співвіднесення літер та звуків, який може бути застосований у наступному поколінні систем озвучування письмового тексту. Ця стаття розвиває попередні дослідження з ВзА у декількох напрямах. По-перше, ми включили «повний» шаблон, який вирівнює рядок із вхідними літерами та словникові статті та враховує лексичний наголос при перетворенні літери у фонему. По-друге, ми застосували даний метод для перетворення фонеми у літеру. По-третє, і найголовніше, ми проекспериментували з багатьма різними стратегіями кількісної оцінки варіантів вимови. Окремі показники для кожної стратегії отримуються на основі рангу і множаться або додаються для отримання остаточного, загального результату. Було досліджено п’ять стратегій та отримано результати з усіх 31 можливих комбінацій. Обидва методи комбінування працюють аналогічно, при зовсім незначній перевазі правила множення вірогідностей над правилом складання. Непараметричний статистичний аналіз свідчить, що продуктивність підвищується, коли комбінація включає більше стратегій: ця тенденція дуже виразна (p < 0:0005). Так само і при перетворенні літер у фонеми, найкращі результати одержуються при комбінуванні усіх п’яти методів: точність транскрипції підвищується до 65.5% порівняно з 61.7% для нашого найкращого попереднього результату та 63.0% для найефективнішої окремої стратегії. Ці покращення дуже істотні (відповідно р ~ 0 і р < 0:00011). Подібні результати були отримані при перетворенні фонем у літери і літер у наголос, хоча для ВзА перше перетворення було легшим завданням, ніж перетворення літер у фонеми, а друге перетворення було важчим завданням. Основні причини помилок у багатостратегійному підході мало відрізняються від основних причин помилок у найкращій окремій стратегії, включаючи здебільшого голосні літери і фонеми.

Переклад Д. Попової

Ke, J. Optimization Models of Sound Systems Using Genetic Algorithms Summarization [Моделі оптимізації систем звуків на основі реферування генетичних алгоритмів] / Jinyun Ke, Mieko Ogura, William S.-Y. Wang // Computational linguistics. – 2003. – Vol. 29. – No. 1. – Pages 1–18. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103321337412#.WIEHb33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103321337412

У цьому дослідженні пропонуються моделі оптимізації, які використовують генетичні алгоритми (ГА) для аналізу конфігурації систем голосних і інтонаційних систем. Як і в попередніх пояснювальних моделях, які використовувалися для аналізу систем голосних, для прогнозування оптимальних систем голосних і інтонаційних систем використовуються певні критерії, які уважаються принципами, що визначають структуру систем звуків. У більшості попередніх досліджень ураховувався лище один критерій. Коли враховуються два критерії, вони часто об’єднуються в одну скалярну функцію. Запропонована для аналізу інтонаційних систем модель ГА використовує ранжувальний метод Раreto, який дуже підходить для розв’язання проблем оптимізації з багатьмa критеріями. З метою оптимізації інтонаційних систем, перцептивний контраст і складність вираженості розглядаються одночасно. Хоча узгодженість між спрогнозованими і наявними системами не настільки значна, як для систем голосних, подальші дослідження у цьому напрямку є перспективними.

Переклад В. Коломієць

Deemter, K. V. Real versus Template-Based Natural Language Generation: A False Opposition? [Справжнє і шаблонне генерування природної мови: хибне протиставлення?] / Kees van Deemter, Mariët Theune, Emiel Krahmer // Computational linguistics. – 2005. – Vol. 31. – No. 1. – Pages 15–24. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201053630291#.WITJOn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201053630291

У статті ставиться під сумнів існуюча думка про те, що генерування природної мови на основі шаблонів завжди програє іншим підходам з точки зору зручності експлуатації, лінгвістичної обгрунтованості і якості виведення. Висловлені претензії проілюстровано за допомогою деяких сучасних систем генерування природної мови, які називаються “шаблонними”.

Переклад В. Коломієць

Schuler, W. A Framework for Fast Incremental Interpretation during Speech Decoding [Модель швидкої покрокової інтерпретації під час розпізнавання мовлення] / William Schuler, Stephen Wu, Lane Schwartz // Computational linguistics. – 2009. – Vol. 35. – No. 3. – Pages 313–343. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.08-011-R2-07-021#.WITLTn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.08-011-R2-07-021

У статті описано метод вбудовування референціальної семантичної інформації з моделі світу або онтології прямо у вірогіднісну модель мови, яка звичайно використовується у розпізнаванні мовлення, де її можна вірогіднісно оцінити разом із фонологічними і синтаксичними факторами як інтегральну частину процесу розпізнавання. Застосування у процесі розпізнавання референтів з моделі світу значно розширює простір пошуку, але застосовуючи єдину інтегровану фонологічну, синтаксичну і референціальну семантичну модель мови, перетворювач коду може покроково спростити цей пошук на основі вірогідностей, які асоціюються з цими об’єднаними контекстами. Результатом є єдина уніфікована референціальна семантична вірогіднісна модель, яка передбачає використання у розпізнаванні мовлення кількох різновидів контекстів і забезпечує точне розпізнавання у реальному часі у великих доменах за відсутності еталонних тренувальних речень з домену.

Переклад В. Коломієць

White, M. Generating Tailored, Comparative Descriptions with Contextually Appropriate Intonation [Генерування індивідуалізованих порівняльних описів із відповідною ситуації інтонацією] / Michael White, Robert A. J. Clark, Johanna D. Moore // Computational linguistics. – 2010. – Vol. 36. – No. 2. – Pages 159-201. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.09-023-R1-08-002#.WITLtX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.09-023-R1-08-002

Генерування відповідей, які відповідають уподобанням користувачів, вимагає адаптації на всіх рівнях процесу генерування. У статті описано багаторівневий підхід до представлення адаптованої під користувача інформації в усних діалогах, який уперше об’єднує багатофакторні моделі рішень, стратегічне планування змісту, поверхневу реалізацію, яка включає прогнозування інтонації, і синтез вибору об’єкта, який враховує отриману інтонаційну структуру. Система вибирає найважливіші варіанти для повідомлення і фактори, які є найнеобхіднішими для здійснення вибору між ними, з урахуванням моделі користувача. Кілька варіантів обираються в тому випадку, коли кожен з них передбачає значний компроміс. Щоб повідомити про ці компроміси, система використовує новітній спосіб представлення, який прямо дозволяє визначати структуру інформації і зміст референціальних виразів. Просодична структура виводиться під час поверхневої реалізації із структури інформації, використовуючи комбінаторну категоріальну граматику для гнучкого, керованого даними визначення меж фраз. Показано, що такий підхід до вибору тонічного наголосу і крайових тонів дозволяє отримати просодичні структури, які за оцінками експертів є значно більш прийнятними, аніж базові моделі прогнозування просодії. Потім продемонстровано, що у порівнянні з двома базовими синтетичними голосами ці просодичні структури уможливлюють синтез, який звучить значно природніше завдяки синтезованому методом вибору звукових елементів голосу для відтворення потрібних тонів. Експертна оцінка і аналіз f0 підтвердили вищість керованої генератором інтонації і її вплив на оцінки слухачів.

Переклад В. Коломієць