Marcu, D. The Rhetorical Parsing of Unrestricted Texts: A Surface-based Approach [Аналіз риторичної структури необмежених текстів: поверхневий підхід] / Daniel Marcu // Computational linguistics. – 2000. – Vol. 26. – No. 3. – Pages 395–448. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561755#.WIEF5H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561755
Зв’язні тексти – це не просто послідовності речень та їх частин, а достатньо складні утворення, що мають дуже непросту риторичну структуру. У статті досліджуються можливості автоматичного отримання коректно утворених риторичних структур за допомогою алгоритмів поверхневого аналізу. Ці алгоритми визначають ключові фрази дискурсу та розбивають речення на клаузи, будують гіпотези про риторичні відносини між текстовими одиницями і створюють надійні дерева риторичної структури для необмежених текстів природною мовою. Емпіричним підґрунтям алгоритмів є корпусне дослідження ключових фраз, у побудові дерев риторичної структури застосовується формалізація першого порядку.
Здійснено як внутрішнє, так і зовнішнє оцінювання алгоритмів. За допомогою внутрішнього оцінювання визначена схожість між деревами риторичної структури, побудованими автоматично та вручну. Зовнішнє оцінювання показало, що автоматично отримані риторичні структури можна успішно використовувати у процесі автоматичного реферування текстів.
Зв’язні тексти – це не просто послідовності речень та їх частин, а достатньо складні утворення, що мають дуже непросту риторичну структуру. У статті досліджуються можливості автоматичного отримання коректно утворених риторичних структур за допомогою алгоритмів поверхневого аналізу. Ці алгоритми визначають ключові фрази дискурсу та розбивають речення на клаузи, будують гіпотези про риторичні відносини між текстовими одиницями і створюють надійні дерева риторичної структури для необмежених текстів природною мовою. Емпіричним підґрунтям алгоритмів є корпусне дослідження ключових фраз, у побудові дерев риторичної структури застосовується формалізація першого порядку.
Здійснено як внутрішнє, так і зовнішнє оцінювання алгоритмів. За допомогою внутрішнього оцінювання визначена схожість між деревами риторичної структури, побудованими автоматично та вручну. Зовнішнє оцінювання показало, що автоматично отримані риторичні структури можна успішно використовувати у процесі автоматичного реферування текстів.
Переклад О. Мартинюк
Pulman, G.S. Bidirectional Contextual Resolution [Двостороннє розв’язання контексту] / Stephen G. Pulman // Computational linguistics. – 2000. – Vol. 26. – No. 4. – Pages 497–537. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100750105939#.WIKMJn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100750105939
У статті описано застосування формалізму для інтерпретації і генерації речень, які містять контекстно-залежні конструкти, такі як детермінанти, займенники, фокус і еліпсис. У якості представлення нечітко вираженого значення, пов'язаного з визначеними логічними формами за допомогою умовних еквівалентностей, використовується варіант квазілогічної форми. Умовні еквівалентності визначають інтерпретацію контекстуально залежних конструктів з урахуванням даного контексту. При співвіднесенні виразів із контекстами використовуються об’єднання і роз’єднання вищого порядку. Умовні еквівалентності можуть бути без змін використані як для інтерпретації, так і для генерації.
У статті описано застосування формалізму для інтерпретації і генерації речень, які містять контекстно-залежні конструкти, такі як детермінанти, займенники, фокус і еліпсис. У якості представлення нечітко вираженого значення, пов'язаного з визначеними логічними формами за допомогою умовних еквівалентностей, використовується варіант квазілогічної форми. Умовні еквівалентності визначають інтерпретацію контекстуально залежних конструктів з урахуванням даного контексту. При співвіднесенні виразів із контекстами використовуються об’єднання і роз’єднання вищого порядку. Умовні еквівалентності можуть бути без змін використані як для інтерпретації, так і для генерації.
Переклад К. Погорєлова
Vieira, R. An Empirically Based System for Processing Definite Descriptions [Cистема обробки визначених дескрипцій на основі дослідних даних] / Renata Vieira, Massimo Poesio // Computational linguistics. – 2000. – Vol. 26. – No. 4. – Pages 539–593. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100750105948#.WIE1tH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100750105948
У статті описана діюча система обробки визначених дескрипцій у довільних областях. Розробка системи здійснювалась на основі опублікованих раніше результатів корпусного аналізу, який виявив широке використання у корпусі газетних текстів нових для дискурсу дескрипцій для всебічної оцінки запропонованих методів вирівнювання визначених дескрипцій з їх антецедентами, сегментування дискурсу, розпізнавання нових для дискурсу дескрипцій і генерування анкорів для зв’язаних дескрипцій.
У статті описана діюча система обробки визначених дескрипцій у довільних областях. Розробка системи здійснювалась на основі опублікованих раніше результатів корпусного аналізу, який виявив широке використання у корпусі газетних текстів нових для дискурсу дескрипцій для всебічної оцінки запропонованих методів вирівнювання визначених дескрипцій з їх антецедентами, сегментування дискурсу, розпізнавання нових для дискурсу дескрипцій і генерування анкорів для зв’язаних дескрипцій.
Переклад В. Коломієць
Tür, G. Integrating Prosodic and Lexical Cues for Automatic Topic Segmentation [Інтеграція просодичної і лексичної інформації для автоматичної тематичного сегментування] / Gökhan Tür, Dilek Hakkani-Tür, Andreas Stolcke, Elizabeth Shriberg // Computational linguistics. – 2001. – Vol. 27. – No. 1. – Pages 31–57. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101300346796#.WIEGR33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101300346796
Описано вірогіднісну модель, яка використовує і просодичну, і лексичну інформацію для автоматичного сегментування мовлення на тематично споріднені одиниці. Запропоновано два методи об’єднання лексичної і просодичної інформації за допомогою прихованих марківських моделей і дерев рішень. Лексична інформація отримувалась із розпізнавача мовлення, а просодичні риси автоматично видобувались із коливань частоти основного тону. Для оцінювання методу використовувався корпус випусків новин, застосовувався показник DARPA-TDT. Результати свідчать, що просодична модель сама по собі може скласти конкуренцію методам сегментування на основі слів. Більше того, було досягнуто значного зменшення помилок завдяки об’єднанню просодичних джерел знань на основі слів і на основі просодії.
Описано вірогіднісну модель, яка використовує і просодичну, і лексичну інформацію для автоматичного сегментування мовлення на тематично споріднені одиниці. Запропоновано два методи об’єднання лексичної і просодичної інформації за допомогою прихованих марківських моделей і дерев рішень. Лексична інформація отримувалась із розпізнавача мовлення, а просодичні риси автоматично видобувались із коливань частоти основного тону. Для оцінювання методу використовувався корпус випусків новин, застосовувався показник DARPA-TDT. Результати свідчать, що просодична модель сама по собі може скласти конкуренцію методам сегментування на основі слів. Більше того, було досягнуто значного зменшення помилок завдяки об’єднанню просодичних джерел знань на основі слів і на основі просодії.
Переклад В. Коломієць
Kibble, R. A Reformulation of Rule 2 of Centering Theory [Переформулювання правила 2 теорії центрування] / Rodger Kibble // Computational linguistics. – 2001. – Vol. 27. – No. 4. – Pages 579–587. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101753342680#.WIEHCH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101753342680
Стверджується, що стандартне ранжування преференцій добре відомих переходів центрування Continue, Retain, Shift є необгрунтованим: часткове, контекстнозалежне ранжування є результатом взаємодії принципів дубльованої зв’язності (збереження попереднього центру уваги) і значимості (реалізація центру уваги як найбільш значимої іменної групи). Пропонується нове формулювання правила 2 теорії центрування, яке враховує ці принципи і спрощену версію поняття дешевизни [M. Strube and U. Hahn, 1999]. Стверджується, що це формулювання дозволяє природним шляхом упоратися зі “змінами тем”, які можуть порушити традиційне ранжування преференцій.
Стверджується, що стандартне ранжування преференцій добре відомих переходів центрування Continue, Retain, Shift є необгрунтованим: часткове, контекстнозалежне ранжування є результатом взаємодії принципів дубльованої зв’язності (збереження попереднього центру уваги) і значимості (реалізація центру уваги як найбільш значимої іменної групи). Пропонується нове формулювання правила 2 теорії центрування, яке враховує ці принципи і спрощену версію поняття дешевизни [M. Strube and U. Hahn, 1999]. Стверджується, що це формулювання дозволяє природним шляхом упоратися зі “змінами тем”, які можуть порушити традиційне ранжування преференцій.
Переклад В. Коломієць
Webber, B. Anaphora and Discourse Structure [Анафора і структура дискурсу] / Bonnie Webber, Matthew Stone, Aravind Joshi, Alistair Knott // Computational linguistics. – 2003. – Vol. 29. – No. 4. – Pages 545–587. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322753347#.WIPQY33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322753347
У статті стверджується, що багато частотних прислівникових груп, які зазвичай сприймаються як сигнал дискурсного зв’язку між синтаксично пов’язаними елементами у структурі дискурсу, натомість функціонують анафорично, передаючи граматичне значення, і тільки опосередковано залежать від структури дискурсу. Таким чином, підтримка композиційної семантики забезпечується простішою структурою дискурсу і розкриваються численні шляхи взаємодії між граматичним значенням, що передається прислівниковими групами, і значенням, що асоціюється зі структурою дискурсу. У заключній частині статті викладається авторське бачення лексикалізованої граматики дискурсу, яка полегшує інтерпретацію дискурсу завдяки композиційним правилам, розв’язанню анафори і виведенню.
У статті стверджується, що багато частотних прислівникових груп, які зазвичай сприймаються як сигнал дискурсного зв’язку між синтаксично пов’язаними елементами у структурі дискурсу, натомість функціонують анафорично, передаючи граматичне значення, і тільки опосередковано залежать від структури дискурсу. Таким чином, підтримка композиційної семантики забезпечується простішою структурою дискурсу і розкриваються численні шляхи взаємодії між граматичним значенням, що передається прислівниковими групами, і значенням, що асоціюється зі структурою дискурсу. У заключній частині статті викладається авторське бачення лексикалізованої граматики дискурсу, яка полегшує інтерпретацію дискурсу завдяки композиційним правилам, розв’язанню анафори і виведенню.
Переклад В. Коломієць
Wolf, F. Representing Discourse Coherence: A Corpus-Based Study [Представлення зв’язності дискурсу: корпусне дослідження] / Florian Wolf, Edward Gibson // Computational linguistics. – 2005. – Vol. 31. – No. 2. – Pages 249–287. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201054223977#.WIEIXn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201054223977
Метою статті є опис набору структурних відносин дискурсу, які легко кодувати, і розробка критеріїв для належної структури даних для представлення цих відносин. Під структурою дискурсу у статті розуміються інформаційні відносини між реченнями у дискурсі. Описаний набір відносин дискурсу запозичено з праці Т. Гоббса (Т. Hobbs, 1985).
У статті описано метод анотування структур зв’язності дискурсу, який було використано для ручного анотування бази даних з 135 текстів з газети Wall Street Journal і стрічки новин агенства Associated Press. Усі тексти були незалежно анотовані двома анотаторами. Показник коефіцієнта каппа більше 0,8 свідчить про дуже високий ступінь узгодженості між анотаторами.
У статті також доведено, що в описовому плані дерева не є належною структурою даних для представлення структури дискурсу. В структурах зв’язності автентичних текстів було виявлено багато різних видів перехресних залежностей, а також багато вузлів з численими «господарями». Висновки підтверджені статистичними даними з анотованої вручну бази даних обсягом 135 текстів.
Метою статті є опис набору структурних відносин дискурсу, які легко кодувати, і розробка критеріїв для належної структури даних для представлення цих відносин. Під структурою дискурсу у статті розуміються інформаційні відносини між реченнями у дискурсі. Описаний набір відносин дискурсу запозичено з праці Т. Гоббса (Т. Hobbs, 1985).
У статті описано метод анотування структур зв’язності дискурсу, який було використано для ручного анотування бази даних з 135 текстів з газети Wall Street Journal і стрічки новин агенства Associated Press. Усі тексти були незалежно анотовані двома анотаторами. Показник коефіцієнта каппа більше 0,8 свідчить про дуже високий ступінь узгодженості між анотаторами.
У статті також доведено, що в описовому плані дерева не є належною структурою даних для представлення структури дискурсу. В структурах зв’язності автентичних текстів було виявлено багато різних видів перехресних залежностей, а також багато вузлів з численими «господарями». Висновки підтверджені статистичними даними з анотованої вручну бази даних обсягом 135 текстів.
Переклад В. Коломієць
Barzilay, R. Modeling Local Coherence: An Entity-Based Approach [Моделювання локальної когерентності на основі референтів] / Regina Barzilay, Mirella Lapata // Computational linguistics. – 2008. – Vol. 34. – No. 1. – Pages 1–34. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.1.1#.WIEJZH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.1.1
У статті запропоновано новітній підхід до представлення і вимірювання локальної когерентності. Головним у цьому підході є представлення дискурсу у вигляді таблиці референтів, яка відображає особливості розподілу референтів у тексті. Запропонований у статті алгоритм автоматично представляє текст у вигляді набору референціальних ланцюжків і реєструє дистрибутивну, синтаксичну і референціальну інформацію про референти дискурсу. Оцінка когерентності представлена як завдання машинного навчання і показано, що репрезентація на основі референтів добре підходить для генерування і класифікації текстів на основі ранжування. За допомогою запропонованої репрезентації були отримані хороші показники у класифікації текстів, оцінюванні когерентності анотацій і легкості спрйняття.
У статті запропоновано новітній підхід до представлення і вимірювання локальної когерентності. Головним у цьому підході є представлення дискурсу у вигляді таблиці референтів, яка відображає особливості розподілу референтів у тексті. Запропонований у статті алгоритм автоматично представляє текст у вигляді набору референціальних ланцюжків і реєструє дистрибутивну, синтаксичну і референціальну інформацію про референти дискурсу. Оцінка когерентності представлена як завдання машинного навчання і показано, що репрезентація на основі референтів добре підходить для генерування і класифікації текстів на основі ранжування. За допомогою запропонованої репрезентації були отримані хороші показники у класифікації текстів, оцінюванні когерентності анотацій і легкості спрйняття.
Переклад К. Погорєлова, М. Драчової
Elsner, M. Disentangling Chat [Розпутування чату] / Micha Elsner, Eugene Charniak // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 389–409. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00003#.WITMQ33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00003
Коли одночасно ведеться кілька розмов, слухач повинен вирішити, частиною якої розмови є кожне висловлення, щоб зрозуміти і належним чином відреагувати на нього. Це завдання називається розпутуванням. У статті описано корпус діалогів з мережі Internet Relay Chat, у якому різні розмови були розпутані вручну, і оцінено якість анотування. Запропоновано кластерну модель розпутування на основі графа, яка враховує лексичні, часові і дискурсивні характеристики. Виконані за допомогою моделі розпутування тісно корелюють із ручним анотуванням. На завершення обговорено два розширення моделі, індивідуальні налаштування і визначення початку розмови, які є обіцяючими, але поки ще не дали практичних результатів.
Коли одночасно ведеться кілька розмов, слухач повинен вирішити, частиною якої розмови є кожне висловлення, щоб зрозуміти і належним чином відреагувати на нього. Це завдання називається розпутуванням. У статті описано корпус діалогів з мережі Internet Relay Chat, у якому різні розмови були розпутані вручну, і оцінено якість анотування. Запропоновано кластерну модель розпутування на основі графа, яка враховує лексичні, часові і дискурсивні характеристики. Виконані за допомогою моделі розпутування тісно корелюють із ручним анотуванням. На завершення обговорено два розширення моделі, індивідуальні налаштування і визначення початку розмови, які є обіцяючими, але поки ще не дали практичних результатів.
Переклад В. Коломієць
Yang, F. An Investigation of Interruptions and Resumptions in Multi-Tasking Dialogues [Дослідження перебивання і відновлення у багатоцільових діалогах] / Fan Yang, Peter A. Heeman, Andrew L. Kun // Computational linguistics. – 2011. – Vol. 37. – No. 1. – Pages 75–104. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00036#.WIELOX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00036
Стаття присвячена багатоцільовим діалогам між людьми, у яких пари співрозмовників, користуючись мовою, працюють над поточним завданням, іноді завершуючи оперативні завдання. Поточним завданням є сеанс гри в покер, у якому співрозмовникам потрібно зібрати покерну руку, а оперативним завданням є гра з картинками, у якій співрозмовники мають з’ясувати, чи є на їхніх дисплеях певна картинка. Для того щоб зрозуміти складні механізми, які використовуються людьми для контролю цих складних інтеракцій, було використано емпіричні корпусні дослідження і експерименти з машинного навчання. По-перше, було проаналізовано перебивання виконання завдань: переключення з поточного завдання на оперативне. З’ясовано, що загалом співрозмовники стараються за можливості переривати виконання поточного завдання у менш несприятливий момент. Також з’ясовано, що дискурсивні маркери oh (о) і wait (стривай) вживаються для переривання завдання удвічі частіше, ніж у розмові про поточне завдання. Крім того, виявлено, що висота тону статистично корелює з перериванням завдання; фактично, чим більш дезорганізуючим є переривання, тим вище висота тону. По-друге, проаналізовано відновлення виконання завдання: повернення до поточного завдання після завершення оперативного завдання, яке перебило його виконання. З’ясовано, що співрозмовники можуть просто продовжити розмову з того місця, в якому вона була перервана, але іноді вони повторюють останнє висловлювання або підсумовують важливу інформацію, якою вони обмінялися до перебивання. По-третє, для визначення наскільки точно можуть перебивання виконання завдання бути розпізнані автоматично і для визначення ефективності ключових слів, виявлених у корпусному дослідженні, застосовано машинне навчання. З’ясовано, що контекст дискурсу, висота тону і дискурсивні маркери oh і wait є важливими характеристиками, які забезпечують надійне розпізнавання перебивань виконання завдання, і за допомогою нелексичних характеристик можна підняти ефективність розпізнавання перебивань, зменшивши відносну кількість помилок більше, ніж на 50% у порівнянні з базовим рівнем. Нарешті, проаналізовано значення отриманих результатів для створення мовного інтерфейсу для підтримки багатоцільових діалогів.
Стаття присвячена багатоцільовим діалогам між людьми, у яких пари співрозмовників, користуючись мовою, працюють над поточним завданням, іноді завершуючи оперативні завдання. Поточним завданням є сеанс гри в покер, у якому співрозмовникам потрібно зібрати покерну руку, а оперативним завданням є гра з картинками, у якій співрозмовники мають з’ясувати, чи є на їхніх дисплеях певна картинка. Для того щоб зрозуміти складні механізми, які використовуються людьми для контролю цих складних інтеракцій, було використано емпіричні корпусні дослідження і експерименти з машинного навчання. По-перше, було проаналізовано перебивання виконання завдань: переключення з поточного завдання на оперативне. З’ясовано, що загалом співрозмовники стараються за можливості переривати виконання поточного завдання у менш несприятливий момент. Також з’ясовано, що дискурсивні маркери oh (о) і wait (стривай) вживаються для переривання завдання удвічі частіше, ніж у розмові про поточне завдання. Крім того, виявлено, що висота тону статистично корелює з перериванням завдання; фактично, чим більш дезорганізуючим є переривання, тим вище висота тону. По-друге, проаналізовано відновлення виконання завдання: повернення до поточного завдання після завершення оперативного завдання, яке перебило його виконання. З’ясовано, що співрозмовники можуть просто продовжити розмову з того місця, в якому вона була перервана, але іноді вони повторюють останнє висловлювання або підсумовують важливу інформацію, якою вони обмінялися до перебивання. По-третє, для визначення наскільки точно можуть перебивання виконання завдання бути розпізнані автоматично і для визначення ефективності ключових слів, виявлених у корпусному дослідженні, застосовано машинне навчання. З’ясовано, що контекст дискурсу, висота тону і дискурсивні маркери oh і wait є важливими характеристиками, які забезпечують надійне розпізнавання перебивань виконання завдання, і за допомогою нелексичних характеристик можна підняти ефективність розпізнавання перебивань, зменшивши відносну кількість помилок більше, ніж на 50% у порівнянні з базовим рівнем. Нарешті, проаналізовано значення отриманих результатів для створення мовного інтерфейсу для підтримки багатоцільових діалогів.
Переклад В. Коломієць
Morante, R. Modality and Negation: An Introduction to the Special Issue [Модальність і заперечення: вступ до спеціального видання] / Roser Morante, Caroline Sporleder // Computational linguistics. – 2012. – Vol. 38. – No. 2. – Pages 223–260. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00095#.WIETM33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00095
Раніше переважна більшість досліджень у галузі обробки природної мови зосереджувались на пропозиційних аспектах значення. Проте для справжнього розуміння мови не менш важливі екстрапропозиційні аспекти. Зазвичай важливими компонентами цих екстрапропозиційних аспектів значення є модальність і заперечення. Хоча більшість комп’ютерних лінгвістів часто ігнорували модальність і заперечення, протягом останніх років інтерес до них виріс, про що свідчить їх розмітка у декількох корпусах. Дослідники почали працювати над моделюванням фактичності, переконання і визначеності, знаходженням гіпотетичних висловлень і обмежень, виявленням суперечностей і визначенням сукупності виразів модальності і заперечення. У статті вміщено огляд способів моделювання модальності і заперечення у комп’ютерній лінгвістиці.
Раніше переважна більшість досліджень у галузі обробки природної мови зосереджувались на пропозиційних аспектах значення. Проте для справжнього розуміння мови не менш важливі екстрапропозиційні аспекти. Зазвичай важливими компонентами цих екстрапропозиційних аспектів значення є модальність і заперечення. Хоча більшість комп’ютерних лінгвістів часто ігнорували модальність і заперечення, протягом останніх років інтерес до них виріс, про що свідчить їх розмітка у декількох корпусах. Дослідники почали працювати над моделюванням фактичності, переконання і визначеності, знаходженням гіпотетичних висловлень і обмежень, виявленням суперечностей і визначенням сукупності виразів модальності і заперечення. У статті вміщено огляд способів моделювання модальності і заперечення у комп’ютерній лінгвістиці.
Переклад І . Снєгурова
Saurí, R. Are You Sure That This Happened? Assessing the Factuality Degree of Events in Text [Ви впевнені, що це правда? Оцінка ступеня достовірності подій у тексті] / Roser Saurí, James Pustejovsky // Computational linguistics. – 2012. – Vol. 38. – No. 2. – Pages 261–299. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00096#.WITCmn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00096
Визначіння реальності, або дійсності, поданої у тексті інформації про події є важливою передумовою міркувань про події у дискурсі. Висновки, зроблені на основі подій, які здаються нереальними або лише можливими, відрізняються від висновків, зроблених на основі подій, які уважаються реальними. Достовірність подій включає два окремі шари інформації. З одного боку, вона пов’язана з полярністю, яка розрізняє позитивні і негативні втілення подій. З другого боку, вона має справу зі ступенем упевненості (наприклад, вірогідний, можливий), інформаційним рівнем, який відноситься до категорії епістемічної модальності. Мета статті – допомогти краще зрозуміти, як реальність подій виражається у природній мові. Для цього пропонується лінгвістично орієнтована обчислювальна модель, в основі якої лежить алгоритм, який пов’язує ефект відношень реальності з рівнями синтаксичної інтеграції. Для перевірки концепції запропонована модель була реалізована в De Facto, профайлері реальності згаданих у тексті подій, і протестована на матеріалі спеціально створеного для цієї мети корпусу з результатами F1-міри 0,70 (макроусереднення) і 0,80 (мікроусереднення). Ці два показники взаємно компенсують характерне для кожного з них надлишкове акцентування (чи то на менше, чи то на більше заповнених категоріях) і тому можуть уважатися нижньою і верхньою межами результативності системи De Facto.
Визначіння реальності, або дійсності, поданої у тексті інформації про події є важливою передумовою міркувань про події у дискурсі. Висновки, зроблені на основі подій, які здаються нереальними або лише можливими, відрізняються від висновків, зроблених на основі подій, які уважаються реальними. Достовірність подій включає два окремі шари інформації. З одного боку, вона пов’язана з полярністю, яка розрізняє позитивні і негативні втілення подій. З другого боку, вона має справу зі ступенем упевненості (наприклад, вірогідний, можливий), інформаційним рівнем, який відноситься до категорії епістемічної модальності. Мета статті – допомогти краще зрозуміти, як реальність подій виражається у природній мові. Для цього пропонується лінгвістично орієнтована обчислювальна модель, в основі якої лежить алгоритм, який пов’язує ефект відношень реальності з рівнями синтаксичної інтеграції. Для перевірки концепції запропонована модель була реалізована в De Facto, профайлері реальності згаданих у тексті подій, і протестована на матеріалі спеціально створеного для цієї мети корпусу з результатами F1-міри 0,70 (макроусереднення) і 0,80 (мікроусереднення). Ці два показники взаємно компенсують характерне для кожного з них надлишкове акцентування (чи то на менше, чи то на більше заповнених категоріях) і тому можуть уважатися нижньою і верхньою межами результативності системи De Facto.
Переклад В. Коломієць
de Marneffe, M.-C. Did It Happen? The Pragmatic Complexity of Veridicality Assessment [Чи це правда? Прагматична складність оцінювання адекватності сприйняття] / Marie-Catherine de Marneffe, Christopher D. Manning, Christopher Potts // Computational linguistics. – 2012. – Vol. 38. – No. 2. – Pages 301–333. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00097#.WITDLn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00097
Розуміння природної мови значною мірою залежить від оцінки істинності – чи розглядаються згадані в тексті події як реальні, чи ні; проте в сучасних системах видобування відносин і подій цій характеристиці приділяється мало уваги. Крім того, у проведених дослідженнях загалом припускалося, що істинність виражається семантичним значенням слів, у статті ж показано, що значну роль у формуванні істинності грає контекст і загальні знання про світ. Ми розширили корпус FactBank, який містить розмітку істинності на основі семантики, додавши розмітку істинності на основі прагматики. Наші мітки складніші, ніж розмітка на основі лексичних значень, але достатньо систематичні, щоб використовуватися у комп’ютерних дослідженнях автоматичного розуміння тексту. Вони також свідчать, що судження про істинність не завжди є категоричними, а тому повинні моделюватися у вигляді дистрибуцій. Нами розроблено класифікатор для автоматичного приписування дистрибуції реальності подій на основі наших нових міток. Класифікатор спирається не тільки на лексичні характеристики, такі як сумнів або заперечення, але й на синтаксичні особливості і наближення до загальних знань про світ, створюючи, таким чином, складну картину різноманітних факторів, які впливають на реальність.
Розуміння природної мови значною мірою залежить від оцінки істинності – чи розглядаються згадані в тексті події як реальні, чи ні; проте в сучасних системах видобування відносин і подій цій характеристиці приділяється мало уваги. Крім того, у проведених дослідженнях загалом припускалося, що істинність виражається семантичним значенням слів, у статті ж показано, що значну роль у формуванні істинності грає контекст і загальні знання про світ. Ми розширили корпус FactBank, який містить розмітку істинності на основі семантики, додавши розмітку істинності на основі прагматики. Наші мітки складніші, ніж розмітка на основі лексичних значень, але достатньо систематичні, щоб використовуватися у комп’ютерних дослідженнях автоматичного розуміння тексту. Вони також свідчать, що судження про істинність не завжди є категоричними, а тому повинні моделюватися у вигляді дистрибуцій. Нами розроблено класифікатор для автоматичного приписування дистрибуції реальності подій на основі наших нових міток. Класифікатор спирається не тільки на лексичні характеристики, такі як сумнів або заперечення, але й на синтаксичні особливості і наближення до загальних знань про світ, створюючи, таким чином, складну картину різноманітних факторів, які впливають на реальність.
Переклад В. Коломієць
Szarvas, G. Cross-Genre and Cross-Domain Detection of Semantic Uncertainty [Незалежне від жанру і тематичної області визначення семантичної невпевненості] / György Szarvas, Veronika Vincze, Richárd Farkas, György Móra, Iryna Gurevych // Computational linguistics. – 2012. – Vol. 38. – No. 2. – Pages 335–367. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00098#.WITD7H3sSGA – Режим доступу до повнотекстової статті:
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00098
Невпевненість є важливим лінгвістичним явищем, актуальним у різних програмах обробки природної мови у різноманітних жанрах, від медичних до соціальних, від стрічок новин до наукового дискурсу, і тематичних областях, від наукових до гуманітарних. Семантичну невпевненість пропозиції у багатьох випадках можна ідентифікувати, користуючись вихідним словником (тобто, лексичними сигналами), і основні етапи ідентифікації невпевненості у програмі включають етапи знаходження лексичних сигналів, характерних для жанру і тематичної області, зняття лексичної омонімії і зв’язування їх із одиницями, які становлять інтерес для конкретної програми (наприклад, розпізнаними подіями у видобуванні інформації). Основна увага у даному дослідженні приділена особливостям розпізнавання контекстно-залежних семантичних сигналів невпевненості у різних жанрах і тематичних областях.
Оскільки у програмах для різних тематичних областей можуть використовуватися різні категорії невпевненості, у дослідженні застосована єдина підкатегоризація семантичної невпевненості. На основі цієї підкатегоризації було нормалізовано анотацію трьох корпусів і отримано результати для чотирьох дуже точних категорій семантичної невпевненості за допомогою сучасної моделі розпізнавання сигналів невпевненості.
Отримані результати свідчать про залежність проблеми від жанру і тематичної області, проте також показано, що навіть набір даних із віддаленої тематичної області може сприяти розпізнаванню і вирішенню неоднозначності сигналів невпевненості, ефективно зменшуючи затрати на анотування, необхідні для роботи з новою тематичною областю. Отже, об’єднана субкатегоризація і адаптація предметної області для тренування моделей є ефективним рішенням незалежного від тематичної області й жанру розпізнавання семантичної невпевненості.
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00098
Невпевненість є важливим лінгвістичним явищем, актуальним у різних програмах обробки природної мови у різноманітних жанрах, від медичних до соціальних, від стрічок новин до наукового дискурсу, і тематичних областях, від наукових до гуманітарних. Семантичну невпевненість пропозиції у багатьох випадках можна ідентифікувати, користуючись вихідним словником (тобто, лексичними сигналами), і основні етапи ідентифікації невпевненості у програмі включають етапи знаходження лексичних сигналів, характерних для жанру і тематичної області, зняття лексичної омонімії і зв’язування їх із одиницями, які становлять інтерес для конкретної програми (наприклад, розпізнаними подіями у видобуванні інформації). Основна увага у даному дослідженні приділена особливостям розпізнавання контекстно-залежних семантичних сигналів невпевненості у різних жанрах і тематичних областях.
Оскільки у програмах для різних тематичних областей можуть використовуватися різні категорії невпевненості, у дослідженні застосована єдина підкатегоризація семантичної невпевненості. На основі цієї підкатегоризації було нормалізовано анотацію трьох корпусів і отримано результати для чотирьох дуже точних категорій семантичної невпевненості за допомогою сучасної моделі розпізнавання сигналів невпевненості.
Отримані результати свідчать про залежність проблеми від жанру і тематичної області, проте також показано, що навіть набір даних із віддаленої тематичної області може сприяти розпізнаванню і вирішенню неоднозначності сигналів невпевненості, ефективно зменшуючи затрати на анотування, необхідні для роботи з новою тематичною областю. Отже, об’єднана субкатегоризація і адаптація предметної області для тренування моделей є ефективним рішенням незалежного від тематичної області й жанру розпізнавання семантичної невпевненості.
Переклад В. Коломієць
Joty S. CODRA: A Novel Discriminative Framework for Rhetorical Analysis [ЗАДРА: новий диференційований підхід до риторичного аналізу] / Shafiq Joty, Giuseppe Carenini and Raymond T. Ng // Computational linguistics. – 2015. – Vol. 41. – No. 3. – Pages 385–435. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00226 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00226
Частини складного речення і речення рідко функціонують в реальному дискурсі самостійно. Скоріше, взаємозв’язок між ними несе важливу інформацію, яка дозволяє дискурсу виражати значення як ціле, а не суму окремих частин. Мета риторичного аналізу полягає у з’ясуванні структури цієї узгодженості. У статті представлено ЗАвершений ймовірнісний Диференційований підхід до здійснення Риторичного Аналізу згідно теорії риторичної структури (ЗАДРА), яка постулює представлення дискурсу у вигляді дерева.
ЗАДРА складається з сегментатора та аналізатора дискурсу. Спочатку сегментатор дискурсу на основі двійкового класифікатора визначає елементарні одиниці дискурсу в заданому тексті. Потім аналізатор будує дерево дискурсу, застосовуючи оптимальний алгоритм автоматичного синтаксичного аналізу до ймовірностей, виведених із двох умовних випадкових полів: один – для синтаксичного аналізу окремих речень, а другий – для синтаксичного розбору сукупностей речень. У статті описано два підходи, метою яких є ефективне об’єднання обох етапів аналізу. Шляхом проведення низки експериментів на основі двох різних наборів даних, продемонстровано, що ЗАДРА перевершує сучасні досягнення, часто з великим відривом. Також показано, що точність може бути покращена далі за допомогою перерозподілу k-найкращих гіпотез, згенерованих ЗАДРА.
Частини складного речення і речення рідко функціонують в реальному дискурсі самостійно. Скоріше, взаємозв’язок між ними несе важливу інформацію, яка дозволяє дискурсу виражати значення як ціле, а не суму окремих частин. Мета риторичного аналізу полягає у з’ясуванні структури цієї узгодженості. У статті представлено ЗАвершений ймовірнісний Диференційований підхід до здійснення Риторичного Аналізу згідно теорії риторичної структури (ЗАДРА), яка постулює представлення дискурсу у вигляді дерева.
ЗАДРА складається з сегментатора та аналізатора дискурсу. Спочатку сегментатор дискурсу на основі двійкового класифікатора визначає елементарні одиниці дискурсу в заданому тексті. Потім аналізатор будує дерево дискурсу, застосовуючи оптимальний алгоритм автоматичного синтаксичного аналізу до ймовірностей, виведених із двох умовних випадкових полів: один – для синтаксичного аналізу окремих речень, а другий – для синтаксичного розбору сукупностей речень. У статті описано два підходи, метою яких є ефективне об’єднання обох етапів аналізу. Шляхом проведення низки експериментів на основі двох різних наборів даних, продемонстровано, що ЗАДРА перевершує сучасні досягнення, часто з великим відривом. Також показано, що точність може бути покращена далі за допомогою перерозподілу k-найкращих гіпотез, згенерованих ЗАДРА.
Переклад А. Шульги
Roth, M. Inducing Implicit Arguments from Comparable Texts: A Framework and Its Applications [Видобування імпліцитних аргументів з порівняльних текстів: метод і його застосування]/ Michael Roth, Anette Frank // Computational linguistics. – 2015. – Vol. 41. – No. 4. – Pages 625–664. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00236 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00236
У статті досліджено аспекти значення речень, які не виражені в локативних предикатно-аргументних структурах. Зокрема, проаналізовано приклади семантичних аргументів, які можна вивести виключно з контексту дискурсу. Метою цього дослідження є автоматичне видобування та опрацювання таких випадків, названих «імпліцитними аргументами», для вдосконалення комп’ютерних моделей мови. Щоб досягти цієї мети, запропоновано ефективний підхід для складного завдання видобування імпліцитних аргументів і їхніх антецедентів з дискурсу та емпірично продемонстровано важливість моделювання цього явища в завданнях на рівні дискурсу.
В основу запропонованого підходу покладено інноваційний проективний підхід, який дозволяє точно виявляти імпліцитні аргументи шляхом вирівнювання та порівняння предикатно-аргументних структур у парах порівняльних текстів. В рамках цього підходу створено метод вирівнювання за предикатами на основі графів, який значно перевершує попередні підходи. За допомогою такого вирівнювання показано, що можна автоматично видобувати й застосовувати окремі імпліцитні аргументи для покращення чинної моделі зв'язування імпліцитних аргументів в дискурсі. Також підтверджено, що хоча рішення щодо реалізації аргументів в більшості випадків є невловимим явищем, вони можуть суттєво вплинути на сприйняття зв’язності тексту. Проведені експерименти показали, що попередні моделі зв’язності не можуть прогнозувати цей вплив. Отже, розроблено нову модель зв’язності, яка вчиться точно прогнозувати предикатно-аргументні структури на основі автоматично вирівняних пар імпліцитних і експліцитних аргументів.
У статті досліджено аспекти значення речень, які не виражені в локативних предикатно-аргументних структурах. Зокрема, проаналізовано приклади семантичних аргументів, які можна вивести виключно з контексту дискурсу. Метою цього дослідження є автоматичне видобування та опрацювання таких випадків, названих «імпліцитними аргументами», для вдосконалення комп’ютерних моделей мови. Щоб досягти цієї мети, запропоновано ефективний підхід для складного завдання видобування імпліцитних аргументів і їхніх антецедентів з дискурсу та емпірично продемонстровано важливість моделювання цього явища в завданнях на рівні дискурсу.
В основу запропонованого підходу покладено інноваційний проективний підхід, який дозволяє точно виявляти імпліцитні аргументи шляхом вирівнювання та порівняння предикатно-аргументних структур у парах порівняльних текстів. В рамках цього підходу створено метод вирівнювання за предикатами на основі графів, який значно перевершує попередні підходи. За допомогою такого вирівнювання показано, що можна автоматично видобувати й застосовувати окремі імпліцитні аргументи для покращення чинної моделі зв'язування імпліцитних аргументів в дискурсі. Також підтверджено, що хоча рішення щодо реалізації аргументів в більшості випадків є невловимим явищем, вони можуть суттєво вплинути на сприйняття зв’язності тексту. Проведені експерименти показали, що попередні моделі зв’язності не можуть прогнозувати цей вплив. Отже, розроблено нову модель зв’язності, яка вчиться точно прогнозувати предикатно-аргументні структури на основі автоматично вирівняних пар імпліцитних і експліцитних аргументів.
Переклад М. Дубка
Nguyen, D. Computational Sociolinguistics: A Survey [Комп’ютерна соціолінгвістика: огляд] / Dong Nguyen, A. Seza Doğruöz, Carolyn P. Rosé, Franciska de Jong // Computational linguistics. – 2016. – Vol. 42. – No. 3. – Pages 537–593. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00258 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00258
Мова – це соціальне явище, соціальній природі якого притаманна варіативність. Останнім часом у галузі комп’ютерної лінгвістики (КЛ) спостерігається зростання інтересу до соціального виміру мови. У статті розглядається нова галузь, яка відображає цей підвищений інтерес, – "комп’ютерна соціолінгвістика". Мета огляду – дати вичерпне уявлення про виконані комп’ютерними лінгвістами соціолінгвістичні дослідження таких проблем як співвідношення мови та соціальної ідентичності, використання мови в побутовому спілкуванні та багатомовне спілкування. Крім того, показано, як масштабні, керовані даними методи, які широко використовуються в комп’ютерній лінгвістиці, можуть доповнити існуючі соціолінгвістичні студії, і як соціолінгвістика може вдосконалювати та спростовувати методи та припущення, які використовуються в дослідженнях з комп’ютерної лінгвістики, тобто продемонстровано потенційні можливості співпраці зацікавлених наукових спільнот. Завдання огляду − висвітлити потенційні переваги тіснішої співпраці двох галузей. У заключній частині статті розглядаються недосліджені проблеми.
Мова – це соціальне явище, соціальній природі якого притаманна варіативність. Останнім часом у галузі комп’ютерної лінгвістики (КЛ) спостерігається зростання інтересу до соціального виміру мови. У статті розглядається нова галузь, яка відображає цей підвищений інтерес, – "комп’ютерна соціолінгвістика". Мета огляду – дати вичерпне уявлення про виконані комп’ютерними лінгвістами соціолінгвістичні дослідження таких проблем як співвідношення мови та соціальної ідентичності, використання мови в побутовому спілкуванні та багатомовне спілкування. Крім того, показано, як масштабні, керовані даними методи, які широко використовуються в комп’ютерній лінгвістиці, можуть доповнити існуючі соціолінгвістичні студії, і як соціолінгвістика може вдосконалювати та спростовувати методи та припущення, які використовуються в дослідженнях з комп’ютерної лінгвістики, тобто продемонстровано потенційні можливості співпраці зацікавлених наукових спільнот. Завдання огляду − висвітлити потенційні переваги тіснішої співпраці двох галузей. У заключній частині статті розглядаються недосліджені проблеми.
Переклад М. Дубка
Habernal I. Argumentation Mining in User-Generated Web Discourse [Глибинний аналіз аргументування у створеному користувачем веб-дискурсі] / Ivan Habernal, Iryna Gurevych // Computational linguistics. – 2017. – Vol. 43. – No. 1. – Pages 125–179. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00276 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00276
Метою глибинного аналізу аргументування, постійно еволюціонуючої дослідницької галузі комп’ютерної лінгвістики, є розробка методів, здатних аналізувати аргументування людини. Ця стаття з кількох поглядів виходить за рамки сучасних досліджень. (i) Матеріалом цього дослідження є фактичні дані iз Всесвітньої мережі, що вимагає вирішення проблем, спричинених різноманіттям стилів, розмаїттям тематики, необмеженим зашумленим мережевим дискурсом, створеним користувачами. (іі) Шляхом адаптування моделі аргументації, протестованої у широкомасштабному дослідженні маркування було заповнено прогалину між нормативними теоріями аргументування та особливостями аргументування, які зустрічаються у фактичних даних. (iii) Створено новий корпус “золотого стандарту” (340 документів обсягом 90 тисяч словоформ) і проведено експерименти з кількома методами машинного навчання з метою визначення компонентів аргументів. Забезпечено вільний доступ загалу до даних, вихідних кодів і принципів маркування. Результати дослідження свідчать, що глибинний аналіз аргументування в створеному користувачами веб-дискурсі є можливим, але складним завданням.
Метою глибинного аналізу аргументування, постійно еволюціонуючої дослідницької галузі комп’ютерної лінгвістики, є розробка методів, здатних аналізувати аргументування людини. Ця стаття з кількох поглядів виходить за рамки сучасних досліджень. (i) Матеріалом цього дослідження є фактичні дані iз Всесвітньої мережі, що вимагає вирішення проблем, спричинених різноманіттям стилів, розмаїттям тематики, необмеженим зашумленим мережевим дискурсом, створеним користувачами. (іі) Шляхом адаптування моделі аргументації, протестованої у широкомасштабному дослідженні маркування було заповнено прогалину між нормативними теоріями аргументування та особливостями аргументування, які зустрічаються у фактичних даних. (iii) Створено новий корпус “золотого стандарту” (340 документів обсягом 90 тисяч словоформ) і проведено експерименти з кількома методами машинного навчання з метою визначення компонентів аргументів. Забезпечено вільний доступ загалу до даних, вихідних кодів і принципів маркування. Результати дослідження свідчать, що глибинний аналіз аргументування в створеному користувачами веб-дискурсі є можливим, але складним завданням.
Переклад А. Шульги
Stab C. Parsing Argumentation Structures in Persuasive Essays [Автоматичний синтаксичний аналіз структур аргументації в есе-переконаннях] / Christian Stab, Iryna Gurevych// Computational linguistics. – 2017. – Vol. 43. – No. 3. – Pages 619–659. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00295 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00295
У статті представлено новий підхід до автоматичного синтаксичного розбору структур аргументації. Компоненти аргументів визначаються шляхом маркування послідовностей на рівні лексем, а нова об’єднана модель застосовується для виявлення структур аргументації. Запропонований метод на глобальному рівні оптимізує типи компонентів аргументів та аргументативних відношень за допомогою цілочисельного лінійного програмування. Доведено, що цей метод значно перевершує високі евристичні вихідні показники у двох різних типах дискурсу. Крім того, у статті описано новий корпус есе-переконань з маркуванням структур аргументації. Продемонстровано, що схема маркування і рекомендації щодо маркування забезпечують високий ступінь узгодженості між маркувальниками.
У статті представлено новий підхід до автоматичного синтаксичного розбору структур аргументації. Компоненти аргументів визначаються шляхом маркування послідовностей на рівні лексем, а нова об’єднана модель застосовується для виявлення структур аргументації. Запропонований метод на глобальному рівні оптимізує типи компонентів аргументів та аргументативних відношень за допомогою цілочисельного лінійного програмування. Доведено, що цей метод значно перевершує високі евристичні вихідні показники у двох різних типах дискурсу. Крім того, у статті описано новий корпус есе-переконань з маркуванням структур аргументації. Продемонстровано, що схема маркування і рекомендації щодо маркування забезпечують високий ступінь узгодженості між маркувальниками.
Переклад А. Шульги