Діалогові системи

Stolcke, A. Dialogue Act Modeling for Automatic Tagging and Recognition of Conversational Speech [Моделювання діалогічних актів для автоматичного анотування і розпізнавання розмовної мови] / Andreas Stolcke, Klaus Ries, Noah Coccaro, Elizabeth Shriberg, Rebecca Bates, Daniel Jurafsky, Paul Taylor, Rachel Martin, Carol Van Ess-Dykema, Marie Meteer // Computational linguistics. – 2000. – Vol. 26. – No. 3. – Pages 339–373. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561737#.WITIlH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561737

У статті описується статистичний підхід до моделювання діалогічних актів у розмовному мовленні, тобто одиниць типу мовленнєвих актів, таких як ТВЕРДЖЕННЯ, ПИТАННЯ, СИГНАЛИ ЗВОРОТНЬОГО ЗВ’ЯЗКУ, ЗГОДА, НЕЗГОДА та ВИБАЧЕННЯ. Запропонована модель розпізнає і прогнозує діалогічні акти на основі лексичних, колокаційних та просодичних сигналів, а також дискурсивної зв’язності послідовності діалогічних реплік. Ця модель диалогу базується на уявленні про структуру діалогічного дискурсу як приховану модель Маркова і про окремі діалогічні акти як зауваження, що випливають із станів моделі. Обмеження можливої послідовності діалогічних реплік змодельовано через n-грам діалогічного акту. Статистична граматика діалогу поєднується із словесними n-грамами, деревами прийняття рішень та нейронними сітками, які моделюють специфічні лексичні та просодичні особливості кожного діалогічного акту. З метою підвищення точності розпізнавання мовлення і класифікації діалогічних актів об’єднано вірогіднісні моделі розпізнавання мовлення і діалогічних актів. Для навчання і оцінки моделей використовується велика, анотована вручну база даних, яка включає 1,155 розмов з корпусу Switchboard, який складається із записів спонтанних телефонних розмов між людьми. Було досягнуто хорошої точності у анотуванні діалогічних актів (65% на базі автоматично розпізнаних слів та інтонацій з великою кількістю помилок та 71% на базі транскриптів слів у порівнянні з 35% випадковою вихідною точністю та 84% точністю людини-анотатора) та невеликого зменшення кількості помилок розпізнавання слів.

Переклад О. Мартинюк

Hajdinjak, M. The PARADISE Evaluation Framework: Issues and Findings [Система оцінювання PARADISE: проблеми і результати] / Melita Hajdinjak, France Mihelič // Computational linguistics. – 2006. – Vol. 32. – No. 2. – Pages 263–272. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.2.263#.WITJvH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.2.263

Протягом останніх 20 років існує значний інтерес до розробки показників і принципів оцінювання і порівняння продуктивності усномовленнєвих діалогових систем. Одним із результатів цього інтересу є потенційна загальна методологія, відома як система PARADISE. У статті висвітлено деякі важливі аспекти застосування PARADISE, яким досі приділялось недостатньо уваги або які навіть ігнорувалися розробниками діалогових систем. Вони включають міркування стосовно відбору відповідних параметрів регресії, впливу нормалізації на точність прогнозування, залежності продуктивності від помилок у розпізнаванні мовлення і відбору відповідного показника задоволеності користувача. Крім того у статті наведено результати оцінювання даних з двох експериментів за методикою “Wizard-of-Oz”. Ці оцінювання включали різні залежні змінні і аналіз показників задоволення кожного користувача.

Переклад В. Коломієць

Litman, D. Characterizing and Predicting Corrections in Spoken Dialogue Systems [Аналіз і передбачення виправлень в усномовленнєвих діалогових системах] / Diane Litman, Julia Hirschberg, Marc Swerts // Computational linguistics. – 2006. – Vol. 32. – No. 3. – Pages 417–438. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.3.417#.WITKIn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.3.417

Стаття присвячена аналізу і передбаченню виправлень, які визначені як репліки, у яких користувач намагається виправити помилку, яку допустила усномовленнєва діалогова система. Описано систему анотування різних типів виправлень і статистичний аналіз їх характеристик у корпусі розмов з усномовленнєвою діалоговою системою інформування про розклад руху потягів. Потім представлено результати експериментів машинного навчання, спрямованих на виявлення виправлень користувачами помилок розпізнавання мови. Досліджено прогностичну силу показників, автоматично обчислених на основі інтонації репліки, процесу розпізнавання мови, експериментальних умов і попередніх реплік. Найефективніші показники зменшують помилки класифікації з базових показників 25,70–28,99% до 15,72%.

Переклад В. Коломієць

Henderson, J. Hybrid Reinforcement/Supervised Learning of Dialogue Policies from Fixed Data Sets [Гібридне, з підкріпленням і з учителем, навчання процедурам управління діалогом на основі фіксованих наборів даних] / James Henderson, Oliver Lemon, Kallirroi Georgila // Computational linguistics. – 2008. – Vol. 34. – No. 4. – Pages 487–511. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.07-028-R2-05-82#.WIS7y33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.07-028-R2-05-82

У статті описано метод навчання процедурі управління діалогом на основі фіксованого набору даних. Запропонований метод вирішує проблеми, пов’язані з діалоговими системами на основі оновлення стану інформації (англ. Information State Update, скор. ISU), які представляють стан діалога у вигляді великого набору характеристик, результатом якого є дуже великий простір станів і величезний простір системних правил. Для вирішення проблеми, яка полягає в тому, що будь-який обмежений масив даних містить інформацію лише про невеликі частини цих просторів станів і системних правил, запропоновано гібридну модель, яка об’єднує навчання з підкріпленням і навчання з учителем. Навчання з підкріпленням використовується для оптимізації міри винагороди за діалог, а навчання з учителем використовується для обмеження вивчених правил тими частинами цих просторів, для яких є дані. Для того щоб на основі обмеженого набору даних робити висновки для великих просторів станів також використовується апроксимація лінійної функції. Щоб продемонструвати ефективність цього методу при виконанні такого складного завдання, вказану модель тренували на корпусі COMMUNICATOR, який було доповнено анотуванням для дій користувача і станів інформації. При тестуванні за допомогою симулятора користувача, який тренували на іншій частині того самого набору даних, запропонована гібридна модель перевершила чисту модель навчання з учителем і чисту модель навчання з підкріпленням. Також, згідно мір автоматичного оцінювання, вона перевершила на даних з корпусу COMMUNICATOR системи, створені вручну, з результатом на 10% краще, ніж середня системна політика корпусу. Запропонований метод поліпшить методи самоналаштування і автоматичної оптимізації процедури управління діалогом на основі обмежених вихідних наборів даних.

Переклад В. Коломієць

Kelleher, J. Applying Computational Models of Spatial Prepositions to Visually Situated Dialog [Застосування обчислювальних моделей просторових прийменників до візуально ситуаційних діалогів] / John D. Kelleher, Fintan J. Costello // Computational linguistics. – 2009. – Vol. 35. – No. 2. – Pages 271–360. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.06-78-prep14#.WIS-An3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.06-78-prep14

У статті описано застосування комп’ютерної моделі просторових прийменників у візуально ситуаційних діалогових системах. У цих діалогах просторові прийменники важливі тому, що люди часто вживають їх для називання об’єктів у візуальному контексті діалогу. Спочатку описано загальну структуру візуально ситуаційної діалогової системи з акцентом на взаємодії між модулем сприйняття простору, який слугує інтерфейсом для моделей прийменникової семантики, і іншими компонентами структури. Після цього описано дві нові обчислювальні моделі топологічних і проективних просторових прийменників. Основним нововведенням у цих моделях є той факт, що вони пояснюють контекстуальний вплив, який можуть мати на місце, описане певним прийменником, інші відволікаючі об’єкти у візуальному зображенні обстановки. Потім описано психолінгвістичні тести оцінювання запропонованого підходу до впливу відволікаючих об’єктів на прийменникову семантику і проілюстровано використання цих моделей як для інтерпретації, так і для генерації прийменникових виразів.

Переклад В. Коломієць

Rieser, V. Learning and Evaluation of Dialogue Strategies for New Applications: Empirical Methods for Optimization from Small Data Sets [Навчання і оцінювання стратегій діалогу для нових програм: емпіричні методи оптимізації на основі малих наборів даних] / Verena Rieser, Oliver Lemon // Computational linguistics. – 2011. – Vol. 37. – No. 1. – Pages 153–196. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00038#.WITMoX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00038

У статті описано нову керовану даними методику навчання стратегії діалогу на основі симуляцій, яка дозволяє вирішити декілька проблем в області автоматичної оптимізації стратегій діалогу: навчання ефективним стратегіям діалогу за відсутності вихідних даних або систем і визначення керованої даними функції винагороди. Крім того, здійснено оцінку результатів реальними користувачами і досліджено перенесення результатів від змодельованих до реальних взаємодій. Для навчання мультимодальним діалогічним стратегіям шляхом взаємодії із змодельованим середовищем, яке самоналаштовується за допомогою невеликого обсягу даних Wizard-of-Oz (WOZ), використовувалось навчання з підкріпленням (англ. Reinforcement Learning). Таке використання даних WOZ забезпечує керовану даними розробку оптимальних стратегій для предметних областей, для яких відсутні працюючі прототипи. Використання навчання з підкріпленням на основі моделювання дозволило знайти оптимальні стратегії, які не (обов’язково) присутні у вихідних даних. Отримані результати свідчать, що навчання з підкріпленням на основі моделювання значно перевершує середню стратегію (людина-чародій), сформовану на основі даних за допомогою навчання з учителем. Стратегія самоналаштування на основі навчання з підкріпленням в середньому в 50 разів ефективніша у змодельованій взаємодії і майже у 18 разів ефективніша у взаємодії з реальними користувачами. Також, суб’єктивна оцінка користувачами стратегії на основі навчання з підкріпленням є на 10% вищою. Показано також, що результати змодельованої взаємодії переносяться на взаємодію з реальними користувачами, і чітко визначено усталеність керованої даними функції оцінки ефективності.

Переклад В. Коломієць

Demberg, V. A Strategy for Information Presentation in Spoken Dialog Systems [Метод представлення інформації в усномовленнєвих діалогових системах] / Vera Demberg, Andi Winterboer, Johanna D. Moore // Computational linguistics. – 2011. – Vol. 37. – No. 3. – Pages 489–539. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00064#.WITOFn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00064

   Інформація в усномовленнєвих діалогових системах повинна бути представлена послідовно, що ускладнює швидкий перегляд великої кількості варіантів. Останні дослідження показали, що задоволеність користувачів негативно корелює з тривалістю діалогу, що свідчить про необхідність створення систем, які забезпечать максимальну ефективність спілкування. Аналіз записів 2000 діалогів між користувачами і дев’ятьма різними діалоговими системами виявив, що значна кількість часу витрачається на етап презентації інформації, отже потенційно можна значно підвищити ефективність усномовленнєвих діалогових систем шляхом скорочення презентації інформації.
   У статті описано метод підвищення ефективності обробки великої кількості різних варіантів шляхом вибору варіантів і їх подальшої організації на основі моделі преференцій користувачів. Це дозволяє діалоговій системі автоматично визначати переваги і недоліки альтернативних варіантів, які підходять користувачеві, і детально представляти ці переваги і недоліки. У зв’язку з цим численні можливі варіанти структуруються так, щоб користувач поступово уточнив свій запит і отримав оптимальну відповідь.
   Для всебічної оцінки нашого методу було проведено серію експериментів, які протестували ефективність запропонованої стратегії. Результати експериментів свідчать, що використання моделі користувача в якості основи для процесу структурування і вибору змісту підвищує ефктивність діалогів користувача. Користувачі виконують свої завданя краще і швидше. Крім того, опитування користувачів показали, що на думку учасників, система на основі моделі користувача забезпечує зрозуміле представлення складних відповідей і підвищує загальну задоволеність користувача. Також, експерименти свідчать, що надання користувачам короткого огляду варіантів, які не задовольняють їх вимогам, значно поліпшує виконаний користувачами огляд доступних варіантів, одночасно залишаючи їх упевненими у тому, що їм показали усі потрібні їм варіанти.

Переклад В. Коломієць

Gravano, A. Affirmative Cue Words in Task-Oriented Dialogue [Стверджувальні підкази у цілеспрямованих діалогах] / Agustín Gravano, Julia Hirschberg, Štefan Beňuš // Computational linguistics. – 2012. – Vol. 38. – No. 1. – Pages 1–39. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00083#.WITPAH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00083

У статті описано серію досліджень стверджувальних підказів – групи підказів, таких як “добре” або “правильно”, які часто вживаються мовцями у розмовах. Через свою неоднозначність ці слова становлять проблему для систем усного діалогу. Вони можуть використовуватися, зокрема, для вираження згоди з тим, що сказав співрозмовник, демонстрації уваги до слів співрозмовника або спонукання до початку нової теми. У статті описано розбіжності в акустичній/просодичній реалізації вказаних функцій у корпусі спонтанних, цілеспрямованих діалогів на літературному американському варіанті англійської мови. Отримані результати важливі як для інтерпретації, так і для генерації у системах усного мовлення. Також, здійснено оцінку прогностичних можливостей обчислювальних методів для автоматичного вирішення багатозначності цих слів. З’ясовано, що найважливішими підказами для автоматичного вирішення багатозначності є інформація про контекст і термінальний тон.

Переклад В. Коломієць

Aist, G. Fruit Carts: A Domain and Corpus for Research in Dialogue Systems and Psycholinguistics [Візки з фруктами: домен і корпус для досліджень у діалогових системах і психолінгвістиці] / Gregory Aist, Ellen Campana, James Allen, Mary Swift, Michael K. Tanenhaus // Computational linguistics. – 2012. – Vol. 38. – No. 3. – Pages 469–478. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00114#.WITPX33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00114

У статті описано новий домен, Візки з фруктами, для спонукання реакції природною мовою з двома цілями: а) для дослідження і розробки діалогових систем і б) для психолінгвістичних досліджень. Візки з фруктами містять п’ять завдань: вибір візка, розміщення його на карті, фарбування візка, повертання візка і наповнення візка фруктами. Візки з фруктами використовувались у дослідженнях у психолінгвістиці і діалогових системах. На основі цього досвіду робиться висновок про те, наскільки домен Візки з фруктами задовільняє чотири необхідні вимоги: спонтанності, прив’язаності до контексту, контрольованого рівня складності і можливості розбивки на напівавтономні допоміжні діалоги. Домен описано достатньо детально, щоб його можна було відтворити; дослідникам, зацікавленим у використанні самих корпусів, пропонується звернутися безпосередньо до авторів.

Переклад В. Коломієць

Mairesse, F. Stochastic Language Generation in Dialogue using Factored Language Models [Вірогіднісна генерація діалогічних текстів за допомогою факторних моделей мови] / François Mairesse, Steve Young // Computational linguistics. – 2014. – Vol. 40. – No. 4. – Pages 763–799. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00199#.WITP0H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00199

Більшість попередніх зусиль, присвячених генерації мови на основі машинного навчання, зосереджувались на двох концепціях: а) використанні статистичної моделі для ранжування набору попередньо згенерованих висловлювань або б) використанні статистики для визначення результатів генерації існуючого генератора. Обидва підходи покладаються на наявність створеного вручну компонента генерації, який може обмежити їх використання у нових областях. Перша мета цієї статті полягає в тому, щоб описати Bagel, метод генерації, який повністю залежить від даних і який розглядає завдання генерації мови як пошук найвірогіднішої послідовності семантичних концептів і їх лінгвістичного втілення згідно факторних моделей мови (англ. Factored Language Models, скор. FLMs). Оскільки списки висловлювань на певну тему для більшості завдань генерації природної мови не є легкодоступними, потрібна неабияка винахідливість, щоб створити дані, потрібні для представлення мовних варіацій між людьми у нетривіальних областях. Стаття базується на припущенні, що навчання генерації парафраз можна прискорити шляхом збирання даних радше від великої кількості непідготовлених анотаторів за допомогою краудсорсингу, аніж кількох спеціалістів у певній області, покладаючись на приблизне представлення значення. Друга мета статті полягає у використанні отриманих шляхом краудсорсингу даних , щоб показати, як можна зробити діалог природнішим, навчившись варіювати вихідні висловлення, згенеровані для певного семантичного введення. Описано два методи на основі даних для генерації парафраз у діалогах: а) шляхом відбору зразків зі cписку N найкращих реалізацій, згенерованих FLM переранжувальником системи Bagel; і б) шляхом навчання структурованого перцептрона, який визначає, чи є можливі реалізації прийнятними парафразами. Для навчання системи Bagel використано набір із 1 956 висловлювань, створених 137 анотаторами, у якому представлено 10 типів діалогів і 128 семантичних концептів у туристичній інформаційній системі для Кембриджу. Автоматичне оцінювання свідчить, що у цій предметній області система Bagel перевершує стандартні показники лінгвістичних моделей на рівні висловлювань. Експертна оцінка 600 згенерованих заново уривків діалогів свідчить, що згенероване на основі FLM системою Bagel виведення створює висловлювання співставні з еталоном, а класифікатор перцептрона працює гірше. Цікаво, що експерти уважають систему, яка відбирає зразки зі cписку N найкращих реалізацій, природнішою за систему, яка завжди повертає перше найкраще висловлювання. Експерти також більше хочуть працювати у майбутньому з системою зі cписком N найкращих реалізацій. Ці результати показують, що виявлення притаманної природній мові значної варіативності за допомогою методів на основі даних іде на користь діалогічному спілкуванню.

Переклад В. Коломієць

Janarthanam, S. Adaptive Generation in Dialogue Systems Using Dynamic User Modeling [Адаптивна генерація у діалогових системах за допомогою динамічного моделювання користувача] / Srinivasan Janarthanam, Oliver Lemon // Computational linguistics. – 2014. – Vol. 40. – No. 4. – Pages 883–920. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00203#.WITRhn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00203

   Статтю присвячено проблемі динамічного моделювання та адаптації до невідомих користувачів в областях з обмеженою кількістю ресурсів у сфері інтерактивних усномовленнєвих діалогових систем. У якості прикладу у статті описано, як система може навчатись обирати референтні вирази для позначення спеціальних понять для користувачів з різними рівнями спеціальних знань, якщо ці рівні системі не відомі. Вказана проблема розв’язується у три етапи: за допомогою методу під назвою Чарівник країни Оз збираються дані, створюються умовні користувачі та відбувається навчання моделюванню та підлаштуванню під невідомих користувачів за допомогою методів навчання з підкріпленням.
   У статті показано, що можна навчитись адаптивному моделюванню користувачів на основі підходу під назвою «відчувай-передбачай-адаптуйся», використовуючи лише невеликий за обсягом корпус неадаптованих діалогів та стислі характеристики рівня знань користувачів. Оцінка результатів свідчить, що при роботі як з умовними, так і з реальними користувачами ефективність методів моделювання користувачів та адаптації до них є вищою в плані адаптації, ніж ефективність простих закодованих вручну стандартних алгоритмів. При роботі з реальними користувачами машинний метод навчання дозволив підвищити рівень адаптації на 20% у порівнянні з контрольним показником адаптивної моделі, закодованої вручну. Також показано, що в результаті адаптації до рівня спеціальних знань користувачів зростає успішність виконання завдання (99.47% з використанням машинного навчання у порівнянні з контрольним результатом 84.7% ручного кодування) та зменшується тривалість діалогу (11% відносної різниці). Також здійснено порівняння машинного навчання з деякими ретельно закодованими вручну адаптивними алгоритмами, які спираються на стислі характеристики рівня знань користувача з метою адаптації вибору референтних виразів під час діалогу. З’ясовано, що машинне навчання дозволяє краще підлаштуватися до характеристик нових користувачів, ніж алгоритми, закодовані вручну, а значимої різниці в роботі з відомими користувачами немає.
   У статті обговорюються загальні переваги нашого методу і можливості його розширення до інших рівнів адаптації, таких як вибір контенту та управління діалогом, а також до інших предметних областей, для яких важлива адаптація до рівня спеціальних знань користувача, таких як туризм та медицина.

Переклад М. Погребної

Chinaei H. Identifying and Avoiding Confusion in Dialogue with People with Alzheimer's Disease [Ідентифікація та уникнення непорозумінь у діалогах із людьми з хворобою Альцгеймера] / Hamidreza Chinaei, Leila Chan Currie, Andrew Danks, Hubert Lin, Tejas Mehta, Frank Rudzicz // Computational linguistics. – 2017. – Vol. 43. – No. 2. – Pages 377–406. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00290 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00290

Хвороба Альцгеймера (ХА) - це все більш поширений когнітивний розлад, симптомами якого є погіршення пам'яті, мови та координації рухів, зазвичай у вказаному порядку. Зростає потреба у підтримці людей з ХА та іншими формами слабоумства в їхньому щоденному житті і автори статті прагнуть зробити це за допомогою мовної взаємодії. Оскільки 33% розмов з людьми з середнім ступенем тяжкості ХА характеризуються порушеннями комунікації, дуже важливо, щоб автоматичні діалогові системи могли розпізнавати ці порушення і, якщо це можливо, уникати їх.
У статті описано кілька мовних особливостей, які є вербальними індикаторами спутаності свідомості при ХА (зокрема, обсяг лексичного запасу, структура синтаксичних дерев та акустичні сигнали) Для виявлення у мовленні з точністю до 82% спутаності свідомості, яка позначається на спілкуванні, застосовано кілька алгоритмів машинного навчання. Також, для того щоб від самого початку уникнути спутаності свідомості, застосовано автоматичне навчання стратегіям діалогу, яке здійснюється за допомогою марковського процесу прийняття рішень з обмеженим спостереженням станів, який досягає точності (до 96,1%), яка значно перевищує кілька еталонів. Ця праця є важливим кроком на шляху до створення автоматизованих діалогових систем для людей із слабоумством.

Переклад А. Шульги