Rubinoff, R. Integrating Text Planning and Linguistic Choice Without Abandoning Modularity: The IGEN Generator [Інтеграція планування тексту та лінгвістичного вибору без відмови від модульності: генератор IGEN] / Robert Rubinoff // Computational linguistics. – 2000. – Vol. 26. – No. 2. – Pages 107–138. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561656#.WITGzX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561656
Як правило, генерування природної мови ділиться на компонент планування тексту і лінгвістичний компонент. Проте, цей поділ базується на припущенні, що два зазначені компоненти можуть діяти незалежно один від одного, що не завжди так. Генератор IGEN усуває необхідність подібного припущення; він управляє взаємодією компонентів, зберігаючи переваги модульності. IGEN робить це за допомогою коментарів, які його лінгвістичний компонент розміщує на структурах, які він будує; ці коментарі містять формальний опис наслідків конкретних лінгвістичних рішень, що дозволяє планувальнику оцінити ці рішення, не маючи жодних лінгвістичних знань. Цей підхід дозволяє IGEN вносити зміни в роботу, виконану окремо кожним компонентом, навіть у випадках, коли кінцевий результат залежить від взаємодії між ними. Крім того, оскільки IGEN моделює усі можливі наслідки лінгвістичних рішень, він може ефективно працювати в умовах обмеженого часу або мовних ресурсів.
Як правило, генерування природної мови ділиться на компонент планування тексту і лінгвістичний компонент. Проте, цей поділ базується на припущенні, що два зазначені компоненти можуть діяти незалежно один від одного, що не завжди так. Генератор IGEN усуває необхідність подібного припущення; він управляє взаємодією компонентів, зберігаючи переваги модульності. IGEN робить це за допомогою коментарів, які його лінгвістичний компонент розміщує на структурах, які він будує; ці коментарі містять формальний опис наслідків конкретних лінгвістичних рішень, що дозволяє планувальнику оцінити ці рішення, не маючи жодних лінгвістичних знань. Цей підхід дозволяє IGEN вносити зміни в роботу, виконану окремо кожним компонентом, навіть у випадках, коли кінцевий результат залежить від взаємодії між ними. Крім того, оскільки IGEN моделює усі можливі наслідки лінгвістичних рішень, він може ефективно працювати в умовах обмеженого часу або мовних ресурсів.
Переклад Д. Попової
Reiter, E. Pipelines and Size Constraints [Програмні конвеєри і обмеження обсягу] / Ehud Reiter // Computational linguistics. – 2000. – Vol. 26. – No. 2. – Pages 251–259. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561692#.WIS2aH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561692
Деякі типи документів повинні відповідати вимогам до обсягу, наприклад не перевищувати обмеження кількості сторінок. У конвеєрній системі генерування природної мови (ГПМ) виконати цю вимогу може бути складно, тому що обсяг залежить в основному від змісту, який визначається на початковому етапі програмного конвеєру, але обсяг не може бути точно визначений, доки система ГПМ не завершить оброблення документа. В статті представлено результати експериментальної перевірки здатності однофазового конвеєру, багатофазового конвеєру та модернізованих варіантів системи СТОП (яка генерує індивідуалізовані заклики до відмови від куріння) задовільнити обмеження обсягу. Ці дані свідчать, що багатофазовий програмний конвеєр працює набагато краще, ніж однофазовий, а найкращий результат показує модернізована система.
Деякі типи документів повинні відповідати вимогам до обсягу, наприклад не перевищувати обмеження кількості сторінок. У конвеєрній системі генерування природної мови (ГПМ) виконати цю вимогу може бути складно, тому що обсяг залежить в основному від змісту, який визначається на початковому етапі програмного конвеєру, але обсяг не може бути точно визначений, доки система ГПМ не завершить оброблення документа. В статті представлено результати експериментальної перевірки здатності однофазового конвеєру, багатофазового конвеєру та модернізованих варіантів системи СТОП (яка генерує індивідуалізовані заклики до відмови від куріння) задовільнити обмеження обсягу. Ці дані свідчать, що багатофазовий програмний конвеєр працює набагато краще, ніж однофазовий, а найкращий результат показує модернізована система.
Переклад О. Мартинюк
Bateman, J. Towards Constructive Text, Diagram, and Layout Generation for Information Presentation [Представлення інформації шляхом створення оригінального тексту, діаграм та зовнішнього вигляду сторінки] / John Bateman, Thomas Kamps, Jörg Kleinz, Klaus Reichenberger // Computational linguistics. – 2001. – Vol. 27. – No. 3. – Pages 409–449. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101317066131#.WIS2xX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101317066131
Належне поєднання елементів, що не виходить за рамки гармонійного оформлення сторінки, є широко відомою та невід’ємною частиною презентації складної інформації. Проте у комп’ютерних презентаціях на питання про точну функцію і природу оформлення сторінки зверталось недостатньо уваги, дослідники часто обмежуються відносно локальними проблемами шрифтів і форматування тексту, залишаючи без уваги важливіше питання оформлення сторінок. Стаття присвячена вибору і функції оформлення сторінок, яке правильно поєднує текстові та графічні способи подання інформації для створення гармонійного дизайну презентації. Продемонстровано, що поряд із більш традиційними інструментами, такими як форматування тексту та внутрішньотекстова розмітка зв’язків дискурсу, багаті можливості досягнення гармонійності презентації криються у оформленні сторінки. У генерації зовнішнього вигляду сторінки, тексту і діаграм використано інтегративний підхід. Наш метод було розроблено на основі попереднього емпіричного дослідження професійно створених стилів сторінок і реалізовано в експериментальній інформаційній системі в галузі історії мистецтва.
Належне поєднання елементів, що не виходить за рамки гармонійного оформлення сторінки, є широко відомою та невід’ємною частиною презентації складної інформації. Проте у комп’ютерних презентаціях на питання про точну функцію і природу оформлення сторінки зверталось недостатньо уваги, дослідники часто обмежуються відносно локальними проблемами шрифтів і форматування тексту, залишаючи без уваги важливіше питання оформлення сторінок. Стаття присвячена вибору і функції оформлення сторінок, яке правильно поєднує текстові та графічні способи подання інформації для створення гармонійного дизайну презентації. Продемонстровано, що поряд із більш традиційними інструментами, такими як форматування тексту та внутрішньотекстова розмітка зв’язків дискурсу, багаті можливості досягнення гармонійності презентації криються у оформленні сторінки. У генерації зовнішнього вигляду сторінки, тексту і діаграм використано інтегративний підхід. Наш метод було розроблено на основі попереднього емпіричного дослідження професійно створених стилів сторінок і реалізовано в експериментальній інформаційній системі в галузі історії мистецтва.
Переклад І. Снєгурова
van Deemter, K. Generating Referring Expressions: Boolean Extensions of the Incremental Algorithm [Генерування референційних виразів: булеві розширення інкрементального алгоритму] / Kees van Deemter // Computational linguistics. – 2002. – Vol. 28. – No. 1. – Pages 37–52. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102317341765#.WJxU1_LsSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102317341765
У цій статті розглядається підхід до генерування референційних виразів і приділяється увага незавершеності існуючих алгоритмів у даній сфері. Після ознайомлення з посиланнями на індивідуальні об’єкти, ми обговорюємо посилання на множини, в тому числі булевські описи, в яких використовуються властивості заперечення і роз’єднання. Для того, щоб забезпечити генерування відрізняючого опису кожен раз коли такі описи зустрічаються, у статті запропоновано узагальнення і розширення інкрементального алгоритму Дейла й Рейтера (1995).
У цій статті розглядається підхід до генерування референційних виразів і приділяється увага незавершеності існуючих алгоритмів у даній сфері. Після ознайомлення з посиланнями на індивідуальні об’єкти, ми обговорюємо посилання на множини, в тому числі булевські описи, в яких використовуються властивості заперечення і роз’єднання. Для того, щоб забезпечити генерування відрізняючого опису кожен раз коли такі описи зустрічаються, у статті запропоновано узагальнення і розширення інкрементального алгоритму Дейла й Рейтера (1995).
Переклад І. Снєгурова
Reiter, E. Human Variation and Lexical Choice [Відмінності між людьми і вибір лексики] / Ehud Reiter, Somayajulu Sripada // Computational linguistics. – 2002. – Vol. 28. – No. 4. – Pages 545–553. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102762671981#.WITF3n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102762671981
У багатьох дослідженнях обробки природної мови імпліцитно припускається, що у мовній спільноті значення слів є чітко визначеними, проте насправді є багато доказів того, що різні люди асоціюють слова з дещо різними значеннями. У статті узагальнено докази цього твердження з літератури і зі здійснюваних дослідницьких проектів і проаналізовано його значення для генерування природної мови, особливо для вибору лексики, тобто підбору слів для генерованого тексту.
У багатьох дослідженнях обробки природної мови імпліцитно припускається, що у мовній спільноті значення слів є чітко визначеними, проте насправді є багато доказів того, що різні люди асоціюють слова з дещо різними значеннями. У статті узагальнено докази цього твердження з літератури і зі здійснюваних дослідницьких проектів і проаналізовано його значення для генерування природної мови, особливо для вибору лексики, тобто підбору слів для генерованого тексту.
Переклад В. Коломієць
Krahmer, E. Graph-Based Generation of Referring Expressions [Генерування референційних виразів на основі графів] / Emiel Krahmer, Sebastiaan van Erk, André Verleg // Computational linguistics. – 2003. – Vol. 29. – No. 1. – Pages 53–72. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103321337430#.WIS3Zn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103321337430
У статті описано новий підхід до генерування референційних виразів. Пропонується формалізувати середовище (що складається з набору об'єктів з різними характеристиками і відносинами) як розмічений орієнтований граф і описувати вибір змісту (які характеристики включати у референційний вираз) як задачу створення підграфа. Для управління процесом пошуку і вибору певних рішень з-поміж інших використовуються функції затрат. Запропонований підхід має чотири основні переваги: (1) графові структури вивчались досить широко, тому використання графів відкриває прямий доступ до багатьох теорій і алгоритмів для роботи з графами; (2) багато алгоритмів нинішнього покоління можуть бути переформульовані мовою графів, завдяки чому полегшується порівняння та інтеграція різних підходів; (3) використання графів дозволяє розв’язати низку проблем, від яких страждали попередні алгоритми генерації референційних виразів; і (4) спільне використання графів і функцій затрат прокладає шлях до інтеграції методів на основі правил з новішими стохастичними підходами.
У статті описано новий підхід до генерування референційних виразів. Пропонується формалізувати середовище (що складається з набору об'єктів з різними характеристиками і відносинами) як розмічений орієнтований граф і описувати вибір змісту (які характеристики включати у референційний вираз) як задачу створення підграфа. Для управління процесом пошуку і вибору певних рішень з-поміж інших використовуються функції затрат. Запропонований підхід має чотири основні переваги: (1) графові структури вивчались досить широко, тому використання графів відкриває прямий доступ до багатьох теорій і алгоритмів для роботи з графами; (2) багато алгоритмів нинішнього покоління можуть бути переформульовані мовою графів, завдяки чому полегшується порівняння та інтеграція різних підходів; (3) використання графів дозволяє розв’язати низку проблем, від яких страждали попередні алгоритми генерації референційних виразів; і (4) спільне використання графів і функцій затрат прокладає шлях до інтеграції методів на основі правил з новішими стохастичними підходами.
Переклад К. Погорєлова
Power, R. Document Structure [Структура документа] / Richard Power, Donia Scott, Nadjet Bouayad-Agha // Computational linguistics. – 2003. – Vol. 29. – No. 2. – Pages 211–260. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322145315#.WIE26n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322145315
Ми уважаємо абстрактну структуру документа окремим описовим рівнем аналізу та генерування письмових текстів. Мета такої схеми – бути сполучною ланкою між змістом тексту (тобто структурою його дискурсу) і його формою (тобто поділом на графічні складові, як-от розділи, абзаци, речення, марковані списки, цифри і примітки). Абстрактну структуру документа можна розглядати як компонент «граматики тексту» Дж. Нанберга; вона також тісно пов’язана з «логічною» розміткою у таких мовах як HTML і LaTEX. Ми демонструємо, що використовуючи це проміжне представлення, можна чіткіше визначити декілька підзадач у генеруванні та розумінні мови.
Ми уважаємо абстрактну структуру документа окремим описовим рівнем аналізу та генерування письмових текстів. Мета такої схеми – бути сполучною ланкою між змістом тексту (тобто структурою його дискурсу) і його формою (тобто поділом на графічні складові, як-от розділи, абзаци, речення, марковані списки, цифри і примітки). Абстрактну структуру документа можна розглядати як компонент «граматики тексту» Дж. Нанберга; вона також тісно пов’язана з «логічною» розміткою у таких мовах як HTML і LaTEX. Ми демонструємо, що використовуючи це проміжне представлення, можна чіткіше визначити декілька підзадач у генеруванні та розумінні мови.
Переклад А. Синящик
Kibble, R. Optimizing Referential Coherence in Text Generation [Підвищення референційної когерентності у генеруванні текстів] / Rodger Kibble , Richard Power // Computational linguistics. – 2004. – Vol. 30. – No. 4. – Pages 401–416. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201042544893#.WIS3_H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201042544893
У статті описана діюча система, яка використовує теорію центрування для планування зв’язних текстів і вибору референційних виразів. Стверджується, що однією з цілей планування текстів і речень має бути підтримання референційної цілісності і, як наслідок, спрощення встановлення займенникової референції. Можливість неоднозначного вживання займенників можна зменшити, забезпечивши відповідну послідовність клауз і аргументів усередині клауз. Основою для такого інтегрованого підходу є теорія центрування. Згідно теорії центрування генерування зв’язних текстів розглядається як завдання врахування обмежень. Добре відоме правило 2 теорії центрування переформульоване як набір обмежень – зв’язність, виразність, дешевизна і нерозривність. Показано зразки виведень, отримані завдяки певному врахуванню цих обмежень. Цей метод полегшує детальне дослідження метрик оцінювання і тому стане ефективним дослідницьким інструментом на додаток до миттєвої практичної вигоди у вигляді пришвидшення і полегшення сприйняття згенерованих текстів. Метод застосовується у системах генерування природної мови, які здійснюють іерархічне структурування текстів на основі теорії когерентних відносин з певними додатковими припущеннями.
У статті описана діюча система, яка використовує теорію центрування для планування зв’язних текстів і вибору референційних виразів. Стверджується, що однією з цілей планування текстів і речень має бути підтримання референційної цілісності і, як наслідок, спрощення встановлення займенникової референції. Можливість неоднозначного вживання займенників можна зменшити, забезпечивши відповідну послідовність клауз і аргументів усередині клауз. Основою для такого інтегрованого підходу є теорія центрування. Згідно теорії центрування генерування зв’язних текстів розглядається як завдання врахування обмежень. Добре відоме правило 2 теорії центрування переформульоване як набір обмежень – зв’язність, виразність, дешевизна і нерозривність. Показано зразки виведень, отримані завдяки певному врахуванню цих обмежень. Цей метод полегшує детальне дослідження метрик оцінювання і тому стане ефективним дослідницьким інструментом на додаток до миттєвої практичної вигоди у вигляді пришвидшення і полегшення сприйняття згенерованих текстів. Метод застосовується у системах генерування природної мови, які здійснюють іерархічне структурування текстів на основі теорії когерентних відносин з певними додатковими припущеннями.
Переклад В. Коломієць
Van Deemter, K. Generating Referring Expressions that Involve Gradable Properties [Генерування референційних виразів з градуальними характеристиками] / Kees van Deemter // Computational linguistics. – 2006. – Vol. 32. – No. 2. – Pages 195–222. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.2.195#.WIS5EX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.2.195
У статті досліджена роль градуальних параметрів референційних виразів з точки зору генерування природної мови. Спочатку описано простий семантичний аналіз нечітких описів (тобто референційних виразів, до складу яких входять градуальні прикметники), який відображає у них контекстно-залежне значення прикметників. Потім показано, як цей різновид аналізу може використовуватися у алгоритмах генерування нечітких описів на основі числових даних. Нарешті, розглянуто питання про те, коли потрібно використовувати такі описи. У заключній частині статті розглядаються виділеність і націленість, які аналізуються так, ніби вони є градуальними прикметниками.
У статті досліджена роль градуальних параметрів референційних виразів з точки зору генерування природної мови. Спочатку описано простий семантичний аналіз нечітких описів (тобто референційних виразів, до складу яких входять градуальні прикметники), який відображає у них контекстно-залежне значення прикметників. Потім показано, як цей різновид аналізу може використовуватися у алгоритмах генерування нечітких описів на основі числових даних. Нарешті, розглянуто питання про те, коли потрібно використовувати такі описи. У заключній частині статті розглядаються виділеність і націленість, які аналізуються так, ніби вони є градуальними прикметниками.
Переклад В. Коломієць
Lapata, M. Automatic Evaluation of Information Ordering: Kendall's Tau [Автоматична оцінка упорядкування інформації: тау Кендала] / Mirella Lapata // Computational linguistics. – 2006. – Vol. 32. – No. 4. – Pages 471–484. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.471#.WIEJEH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.4.471
У статті розглядається питання упорядкування інформації, яка є основою багатьох програм опрацювання текстів природною мовою, таких як генерування тексту з концептуальних представлень і багатодокументне реферування. Запропоновано метод оцінювання на основі коефіцієнта рангової кореляції τ Кендала. Цей метод є недорогим, надійним і незалежним від представлення. Продемонстровано, що коефіцієнт рангової кореляції τ Кендала надійно корелює з експертними оцінками і часом зчитування.
У статті розглядається питання упорядкування інформації, яка є основою багатьох програм опрацювання текстів природною мовою, таких як генерування тексту з концептуальних представлень і багатодокументне реферування. Запропоновано метод оцінювання на основі коефіцієнта рангової кореляції τ Кендала. Цей метод є недорогим, надійним і незалежним від представлення. Продемонстровано, що коефіцієнт рангової кореляції τ Кендала надійно корелює з експертними оцінками і часом зчитування.
Переклад В. Коломієць
Paraboni, I. Generating Referring Expressions: Making Referents Easy to Identify [Генерування референційних виразів: спрощення ідентифікації референтів] / Ivandré Paraboni, Kees van Deemter, Judith Masthoff // Computational linguistics. – 2007. – Vol. 33. – No. 2. – Pages 229–254. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.2.229 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.2.229
Референційні вирази часто потрібно вибирати таким чином, щоб було легко розпізнати їх референти. Стаття присвячена рефернційним виразам у ієрархічно структурованих тематичних областях і досліджує гіпотезу про те, що референційні вирази можна удосконалити, включивши до них логічно надлишкову інформацію, якщо таким чином можна значно пришвидшити знаходження та ідентифікацію референта. Описано загальні алгоритми, які втілюють цю ідею, шляхом включення у загальний вираз логічно надлишкової інформації у деяких чітко окреслених ситуаціях. Для перевірки висунутої гіпотези і для оцінки продуктивності запропонованих алгоритмів було проведено два керовані експерименти з участю людей. Перший експеримент підтвердив, що експерти віддають перевагу логічно надлишковим виразам у випадках, у яких це було передбачено нашим алгоритмом. Другий ескперимент свідчить, що створена нашим алгоритмом логічна надлишковість іде на користь читачам з точки зору зусиль, потрібних на ідентицікацію референта виразу.
Референційні вирази часто потрібно вибирати таким чином, щоб було легко розпізнати їх референти. Стаття присвячена рефернційним виразам у ієрархічно структурованих тематичних областях і досліджує гіпотезу про те, що референційні вирази можна удосконалити, включивши до них логічно надлишкову інформацію, якщо таким чином можна значно пришвидшити знаходження та ідентифікацію референта. Описано загальні алгоритми, які втілюють цю ідею, шляхом включення у загальний вираз логічно надлишкової інформації у деяких чітко окреслених ситуаціях. Для перевірки висунутої гіпотези і для оцінки продуктивності запропонованих алгоритмів було проведено два керовані експерименти з участю людей. Перший експеримент підтвердив, що експерти віддають перевагу логічно надлишковим виразам у випадках, у яких це було передбачено нашим алгоритмом. Другий ескперимент свідчить, що створена нашим алгоритмом логічна надлишковість іде на користь читачам з точки зору зусиль, потрібних на ідентицікацію референта виразу.
Переклад В. Коломієць
Karamanis, N. Evaluating Centering for Information Ordering Using Corpora [Оцінка застосування центрування в упорядкуванні інформації за допомогою корпусів] / Nikiforos Karamanis, Chris Mellish, Massimo Poesio, Jon Oberlander // Computational linguistics. – 2009. – Vol. 35. – No. 1. – Pages 29–46. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.07-036-R2-06-22#.WIS9cH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.07-036-R2-06-22
У статті розглядаються кілька мір когерентності, визначених за допомогою теорії центрування, і досліджується придатність таких мір для упорядкування інформації у автоматичному генеруванні текстів. Емпірично виявлено найперспективнішу міру і перевірено її ефективність шляхом застосування загальної методики до кількох корпусів. Головний висновок полягає в тому, що найпростіша міра (яка спирається виключно на переходи NOCB) встановлює надійний вихідний рівень, який не можуть перевершити інші міри, які користуються додатковими рисами центрування. Цей вихідний рівень можна застосувати у розробці систем генерування тексту як на основі тексту, так і на основі концептуальних представлень.
У статті розглядаються кілька мір когерентності, визначених за допомогою теорії центрування, і досліджується придатність таких мір для упорядкування інформації у автоматичному генеруванні текстів. Емпірично виявлено найперспективнішу міру і перевірено її ефективність шляхом застосування загальної методики до кількох корпусів. Головний висновок полягає в тому, що найпростіша міра (яка спирається виключно на переходи NOCB) встановлює надійний вихідний рівень, який не можуть перевершити інші міри, які користуються додатковими рисами центрування. Цей вихідний рівень можна застосувати у розробці систем генерування тексту як на основі тексту, так і на основі концептуальних представлень.
Переклад В. Коломієць
Reiter, E. An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems [Дослідження валідності деяких метрик автоматичного оцінювання систем генерування природної мови] / Ehud Reiter, Anja Belz // Computational linguistics. – 2009. – Vol. 35. – No. 4. – Pages 529–558. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2009.35.4.35405#.WIS-p33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35405
Зростає зацікавленість у використанні автоматично обчислених метрик оцінювання для оцінювання систем генерування природної мови (ГПМ), адже вони часом значно дешевші, ніж оцінки експертів, які традиційно використовуються у ГПМ. У статті вміщено аналіз попередніх досліджень оцінювання ГПМ і валідації автоматичних метрик у опрацюванні природної мови, а потім представлено результати двох досліджень того, наскільки деякі метрики, популярні в інших областях опрацювання природної мови (особливо BLEU і ROUGE), корелюють із судженнями експертів у предметній області згенерованих комп’ютером прогнозів погоди. Отримані результати свідчать, що принаймні у цій предметній області метрики можуть бути корисною міркою якості мови, хоча докази цього не такі беззаперечні, як нам хотілося б у ідеалі; втім вони не є корисною метрикою якості змісту. Також проаналізовано велику кількість застережень, які потрібно пам’ятати під час інтерпретації результатів цього та інших валідаційних досліджень.
Зростає зацікавленість у використанні автоматично обчислених метрик оцінювання для оцінювання систем генерування природної мови (ГПМ), адже вони часом значно дешевші, ніж оцінки експертів, які традиційно використовуються у ГПМ. У статті вміщено аналіз попередніх досліджень оцінювання ГПМ і валідації автоматичних метрик у опрацюванні природної мови, а потім представлено результати двох досліджень того, наскільки деякі метрики, популярні в інших областях опрацювання природної мови (особливо BLEU і ROUGE), корелюють із судженнями експертів у предметній області згенерованих комп’ютером прогнозів погоди. Отримані результати свідчать, що принаймні у цій предметній області метрики можуть бути корисною міркою якості мови, хоча докази цього не такі беззаперечні, як нам хотілося б у ідеалі; втім вони не є корисною метрикою якості змісту. Також проаналізовано велику кількість застережень, які потрібно пам’ятати під час інтерпретації результатів цього та інших валідаційних досліджень.
Переклад В. Коломієць
Madnani, N. Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods [Генерування перефразувань словосполучень і речень: огляд методів, керованих даними] / Nitin Madnani, Bonnie J. Dorr // Computational linguistics. – 2010. – Vol. 36. – No. 3. – Pages 341–387. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00002#.WITBRX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00002
Завдання перефразування дуже добре знайоме носіям усіх мов. Більше того, завдання автоматичної генерування або видобування семантичних еквівалентів різних одиниць мови – слів, словосполучень і речень – є важливим компонентом опрацювання природної мови і все частіше використовується для підвищення ефективності різного програмного забезпечення для опрацювання природної мови. У статті зроблена спроба здійснити всебічний і незалежний від комп’ютерних програм аналіз керованих даними методів генерування перефразування словосполучень і речень, одночасно демонструючи розуміння важливості і потенційного використання перефразування в дослідженнях опрацювання природної мови. Також проаналізовано досягнення в ручному і автоматичному створенні корпусів перефразувань. Нарешті, обговорено стратегії оцінювання методів генерування перефразувань і коротко розглянуто деякі новітні тенденції у генеруванні перефразувань.
Завдання перефразування дуже добре знайоме носіям усіх мов. Більше того, завдання автоматичної генерування або видобування семантичних еквівалентів різних одиниць мови – слів, словосполучень і речень – є важливим компонентом опрацювання природної мови і все частіше використовується для підвищення ефективності різного програмного забезпечення для опрацювання природної мови. У статті зроблена спроба здійснити всебічний і незалежний від комп’ютерних програм аналіз керованих даними методів генерування перефразування словосполучень і речень, одночасно демонструючи розуміння важливості і потенційного використання перефразування в дослідженнях опрацювання природної мови. Також проаналізовано досягнення в ручному і автоматичному створенні корпусів перефразувань. Нарешті, обговорено стратегії оцінювання методів генерування перефразувань і коротко розглянуто деякі новітні тенденції у генеруванні перефразувань.
Переклад В. Коломієць
Mairesse, F. Controlling User Perceptions of Linguistic Style: Trainable Generation of Personality Traits Segmentation [Контроль сприйняття користувачем мовного стилю: генерування сегментування характеристик особистості на основі машинного навчання] / François Mairesse, Marilyn A. Walker // Computational linguistics. – 2011. – Vol. 37. – No. 3. – Pages 455–488. – Режим доступу до анотації:
http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00063#.WITNUH3sSGA – Режим доступу до повнотекстової статті:
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00063
Останнім часом дослідники генерування природної мови почали ураховувати мовне варіювання, створюючи алгоритми, здатні модифікувати мовний стиль системи в залежності від мовного стилю користувача або інших факторів, таких як індивідуальні особливості або ввічливість. Хоча контроль стилю завжди спирався на правила, розроблені вручну, для створення системи генерування, здатної відтворити широкий діапазон варіювання, характерний для людського діалогу, знадобляться статистичні методи. Досягнення в розробці статистичного підходу до генерування природної мови свідчать, що граматичну правильність і природність загальних висловлювань можна поліпшити за допомогою даних, проте ці керовані даними методи не спроможні забезпечити стилістичну варіативність, яка справлятиме на людей потрібне системі враження. У статті описано Personage, генератор мови з високим ступенем параметризації, параметри якого визначено на основі психологічних даних про індивідуальні мовні рефлекси. Представлено інноваційний метод генерування природної мови на основі статистичного підходу, який прогнозує рішення генератора, потрібні для передачі будь-якої комбінації скалярних значень в рамках п’яти основних вимірів особистості. Експертна оцінка свідчить, що запропоновані моделі визначення параметрів забезпечують безперервне явно виражене стилістичне варіювання за багатьма параметрами без обчислювальної вартості методів «повторного генерування».
http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00063#.WITNUH3sSGA – Режим доступу до повнотекстової статті:
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00063
Останнім часом дослідники генерування природної мови почали ураховувати мовне варіювання, створюючи алгоритми, здатні модифікувати мовний стиль системи в залежності від мовного стилю користувача або інших факторів, таких як індивідуальні особливості або ввічливість. Хоча контроль стилю завжди спирався на правила, розроблені вручну, для створення системи генерування, здатної відтворити широкий діапазон варіювання, характерний для людського діалогу, знадобляться статистичні методи. Досягнення в розробці статистичного підходу до генерування природної мови свідчать, що граматичну правильність і природність загальних висловлювань можна поліпшити за допомогою даних, проте ці керовані даними методи не спроможні забезпечити стилістичну варіативність, яка справлятиме на людей потрібне системі враження. У статті описано Personage, генератор мови з високим ступенем параметризації, параметри якого визначено на основі психологічних даних про індивідуальні мовні рефлекси. Представлено інноваційний метод генерування природної мови на основі статистичного підходу, який прогнозує рішення генератора, потрібні для передачі будь-якої комбінації скалярних значень в рамках п’яти основних вимірів особистості. Експертна оцінка свідчить, що запропоновані моделі визначення параметрів забезпечують безперервне явно виражене стилістичне варіювання за багатьма параметрами без обчислювальної вартості методів «повторного генерування».
Переклад В. Коломієць
Power, R. Generating Numerical Approximations [Генерування числових апроксимацій] / Richard Power, Sandra Williams // Computational linguistics. – 2012. – Vol. 38. – No. 1. – Pages 113–134. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00086#.WITCLn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00086
У статті описано обчислювальну модель для планування словосполучень типу “понад чверть” і “25,9 відсотків”, які описують частини при різних рівнях точності. Модель пропонує основні варіанти у плануванні числового опису, використовуючи формальні визначення математичної форми (наприклад, різницю між долями і відсотками) і закругленість, адаптовану з попередніх досліджень. Завдання змодельоване у вигляді задачі задоволення обмежень з рішеннями, які послідовно розсортовані за преференціями (наприклад, закругленості). Деталізовані обмеження визначені за допомогою корпусу числових виразів, укладеного у проекті NumGen*, і оцінені за допомогою емпіричних досліджень, у яких інформантів просили утворити (або завершити) числові вирази у заданих умовах.
*NumGen: Генерування грамотних описів числових величин для людей з різними рівнями математичної грамотності (http://mcs.open.ac.uk/sw6629/numgen). NumGen був профінансований Радою з економічних і соціальних досліджень шляхом виділення гранту з вих. номером RES-000-22-2760.
У статті описано обчислювальну модель для планування словосполучень типу “понад чверть” і “25,9 відсотків”, які описують частини при різних рівнях точності. Модель пропонує основні варіанти у плануванні числового опису, використовуючи формальні визначення математичної форми (наприклад, різницю між долями і відсотками) і закругленість, адаптовану з попередніх досліджень. Завдання змодельоване у вигляді задачі задоволення обмежень з рішеннями, які послідовно розсортовані за преференціями (наприклад, закругленості). Деталізовані обмеження визначені за допомогою корпусу числових виразів, укладеного у проекті NumGen*, і оцінені за допомогою емпіричних досліджень, у яких інформантів просили утворити (або завершити) числові вирази у заданих умовах.
*NumGen: Генерування грамотних описів числових величин для людей з різними рівнями математичної грамотності (http://mcs.open.ac.uk/sw6629/numgen). NumGen був профінансований Радою з економічних і соціальних досліджень шляхом виділення гранту з вих. номером RES-000-22-2760.
Переклад В. Коломієць
Krahmer, E. Computational Generation of Referring Expressions: A Survey [Автоматичне генерування референційних виразів: огляд] / Emiel Krahmer, Kees van Deemter // Computational linguistics. – 2012. – Vol. 38. – No. 1. – Pages 173–218. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00088#.WIPVO33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00088
У статті представлено огляд комп’ютерних досліджень генерування референційних виразів ( англ. referring expression generation, скор. REG). Стаття знайомить із проблемою REG і описує перші дослідження у цій області, аналізуючи основні припущення, які лежать у їх основі, і демонструючи, як розширились за останні роки їх напрями. У статті проаналізовано обчислювальні платформи, які лежать в основі REG, і показано нову тенденцію, яка намагається поєднати алгоритми REG з добре усталеними методами представлення знань. Значну увагу приділено останнім спробам оцінювання алгоритмів REG і висновкам, які можна зробити на їх основі. Стаття завершується аналізом майбутніх напрямів досліджень в області REG, зосереджених на посиланнях у ширших і більш реалістичних контекстах.
У статті представлено огляд комп’ютерних досліджень генерування референційних виразів ( англ. referring expression generation, скор. REG). Стаття знайомить із проблемою REG і описує перші дослідження у цій області, аналізуючи основні припущення, які лежать у їх основі, і демонструючи, як розширились за останні роки їх напрями. У статті проаналізовано обчислювальні платформи, які лежать в основі REG, і показано нову тенденцію, яка намагається поєднати алгоритми REG з добре усталеними методами представлення знань. Значну увагу приділено останнім спробам оцінювання алгоритмів REG і висновкам, які можна зробити на їх основі. Стаття завершується аналізом майбутніх напрямів досліджень в області REG, зосереджених на посиланнях у ширших і більш реалістичних контекстах.
Переклад В. Коломієць
Сhali, Y. Towards Topic-to-Question Generation [На шляху до автоматичного генерування питань на задану тему] / Yllias Chali, Sadid A. Hasan // Computational linguistics. – 2015. – Vol. 41. – No. 1. – Pages 1–20. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00206 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00206
Ця стаття присвячена автоматичному генеруванню всіх можливих запитань на задану тему. Зокрема, вважаємо, що кожна тема асоціюється з корпусом текстів, які містять корисну інформацію про тему. Крім того, генерування запитань відбувається шляхом використання відомостей про носіїв власних назв та аргументно-предикативних структур речень з корпусу текстів. Значущість згенерованих запитань оцінюється за допомогою латентного розміщення Діріхле шляхом визначення підтем (тісно пов’язаних з основною темою) у конкретному корпусі текстів і застосування розширеного ядра строкових підпослідовностей для обчислення їхньої схожості з запитаннями. Також, у статті пропонується використання ядер синтаксичних дерев для автоматичної оцінки синтаксичної правильності запитань. Запитання ранжуються з урахуванням їхнього значення (в контексті конкретного корпусу текстів) та синтаксичної правильності. Подібний спосіб виконання вказаного завдання не використовувався в жодному з попередніх досліджень. Як свідчить низка експериментів, запропонований підхід до генерування запитань на задану тему може значно перевершити результати останніх досліджень.
Ця стаття присвячена автоматичному генеруванню всіх можливих запитань на задану тему. Зокрема, вважаємо, що кожна тема асоціюється з корпусом текстів, які містять корисну інформацію про тему. Крім того, генерування запитань відбувається шляхом використання відомостей про носіїв власних назв та аргументно-предикативних структур речень з корпусу текстів. Значущість згенерованих запитань оцінюється за допомогою латентного розміщення Діріхле шляхом визначення підтем (тісно пов’язаних з основною темою) у конкретному корпусі текстів і застосування розширеного ядра строкових підпослідовностей для обчислення їхньої схожості з запитаннями. Також, у статті пропонується використання ядер синтаксичних дерев для автоматичної оцінки синтаксичної правильності запитань. Запитання ранжуються з урахуванням їхнього значення (в контексті конкретного корпусу текстів) та синтаксичної правильності. Подібний спосіб виконання вказаного завдання не використовувався в жодному з попередніх досліджень. Як свідчить низка експериментів, запропонований підхід до генерування запитань на задану тему може значно перевершити результати останніх досліджень.
Переклад А. Шульги
Zhang, Y. Discriminative Syntax-Based Word Ordering for Text Generation [Диференційоване впорядкування слів на основі синтаксису для генерування текстів]/ Yue Zhang, Stephen Clark // Computational linguistics. – 2015. – Vol. 41. – No. 3. – Pages 503–538. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00229 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00229
Основною проблемою генерування текстів є упорядкування слів. У статті описано упорядкування слів на основі синтаксичного підходу та диференціальної моделі. Розглянуто два граматичні формалізми: комбінаторну категорійну граматику (ККГ) і граматику залежностей. При пошуці ймовірної послідовності слів та синтаксичному аналізі простір пошуку є дуже великим, що ускладнює автоматичне диференціювання. Автори статті розробили орієнтовану на навчання пошукову систему, що базується на першому найкращому результаті пошуку і проаналізували кілька альтернативних алгоритмів навчання.
Представлена система є гнучкою, оскільки дозволяє встановлювати обмеження на вихідні послідовності слів. Для демонстрації цієї гнучкості розглядаються різні умови вводу інформації. По-перше, досліджено так зване «чисте» завдання з упорядкування слів, у якому вхідними даними є мультимножина слів, а завдання полягає в їх упорядкуванні у граматично правильне речення. Таке завдання вже розв’язувалось, і в статті повідомляється, що отримані результати кращі, ніж результати існуючих систем на базі стандартної тестової вибірки Wall Street Journal. По-друге, розглянуто ту саму проблему перевпорядкування, але з різними умовами вводу інформації: від «голого» набору даних без міток залежностей чи частиномовної розмітки до виключного випадку, коли вхідними даними є повна частиномовна розмітка та неупорядковані, немарковані залежності (а також різноманітні проміжні умови). При розв’язанні завдання з розділеними ресурсами конференції з генерації природної мови 2011 року за допомогою розробленої системи було отримано результати, які конкурують з результатами найкращих систем, що також підтверджує практичну цінність розробленої системи.
Основною проблемою генерування текстів є упорядкування слів. У статті описано упорядкування слів на основі синтаксичного підходу та диференціальної моделі. Розглянуто два граматичні формалізми: комбінаторну категорійну граматику (ККГ) і граматику залежностей. При пошуці ймовірної послідовності слів та синтаксичному аналізі простір пошуку є дуже великим, що ускладнює автоматичне диференціювання. Автори статті розробили орієнтовану на навчання пошукову систему, що базується на першому найкращому результаті пошуку і проаналізували кілька альтернативних алгоритмів навчання.
Представлена система є гнучкою, оскільки дозволяє встановлювати обмеження на вихідні послідовності слів. Для демонстрації цієї гнучкості розглядаються різні умови вводу інформації. По-перше, досліджено так зване «чисте» завдання з упорядкування слів, у якому вхідними даними є мультимножина слів, а завдання полягає в їх упорядкуванні у граматично правильне речення. Таке завдання вже розв’язувалось, і в статті повідомляється, що отримані результати кращі, ніж результати існуючих систем на базі стандартної тестової вибірки Wall Street Journal. По-друге, розглянуто ту саму проблему перевпорядкування, але з різними умовами вводу інформації: від «голого» набору даних без міток залежностей чи частиномовної розмітки до виключного випадку, коли вхідними даними є повна частиномовна розмітка та неупорядковані, немарковані залежності (а також різноманітні проміжні умови). При розв’язанні завдання з розділеними ресурсами конференції з генерації природної мови 2011 року за допомогою розробленої системи було отримано результати, які конкурують з результатами найкращих систем, що також підтверджує практичну цінність розробленої системи.
Переклад А. Шульги
Gardent, C. A Statistical, Grammar-Based Approach to Microplanning [Статистичний підхід до мікропланування на основі граматики] / Claire Gardent, Laura Perez-Beltrachini // Computational linguistics. – 2017. – Vol. 43. – No. 1. – Pages 1–30. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00273 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00273
Незважаючи на те, що протягом останніх років було здійснено велику кількість досліджень, присвячених керованому даними генеруванню природної мови, залишились поза увагою дрібномодульні залежності, які з’являються під час мікропланування між агрегуванням, поверхневою реалізацією та сегментуванням речень. У статті запропоновано гібридний символьно-статистичний підхід для одночасного моделювання правил, які регулюють ці залежності. Запропонований підхід поєднує невелику створену вручну граматику, статистичний гіперрозмітник і алгоритм поверхневої реалізації. Підхід застосовано для вербалізації запитів до баз знань і протестовано на 13 базах знань, щоб показати його незалежність від галузі. Запропонований підхід оцінено кількома способами. Кількісний аналіз свідчить, що гібридний підхід перевершує суто символьний підхід як за швидкістю, так і за покриттям. Результати експертного оцінювання свідчать про те, що користувачі вважають вивід цієї гібридної статистично-символьної системи більш природним, ніж вивід суто шаблонного підходу і суто символьного підходу на основі граматики. Нарешті, на прикладах показано, що запропонований підхід може враховувати різні фактори, які впливають на агрегування, сегментування речень і поверхневу реалізацію.
Незважаючи на те, що протягом останніх років було здійснено велику кількість досліджень, присвячених керованому даними генеруванню природної мови, залишились поза увагою дрібномодульні залежності, які з’являються під час мікропланування між агрегуванням, поверхневою реалізацією та сегментуванням речень. У статті запропоновано гібридний символьно-статистичний підхід для одночасного моделювання правил, які регулюють ці залежності. Запропонований підхід поєднує невелику створену вручну граматику, статистичний гіперрозмітник і алгоритм поверхневої реалізації. Підхід застосовано для вербалізації запитів до баз знань і протестовано на 13 базах знань, щоб показати його незалежність від галузі. Запропонований підхід оцінено кількома способами. Кількісний аналіз свідчить, що гібридний підхід перевершує суто символьний підхід як за швидкістю, так і за покриттям. Результати експертного оцінювання свідчать про те, що користувачі вважають вивід цієї гібридної статистично-символьної системи більш природним, ніж вивід суто шаблонного підходу і суто символьного підходу на основі граматики. Нарешті, на прикладах показано, що запропонований підхід може враховувати різні фактори, які впливають на агрегування, сегментування речень і поверхневу реалізацію.
Переклад М. Дубка
Paraboni, I. Effects of Cognitive Effort on the Resolution of Overspecified Descriptions [Вплив когнітивного зусилля на розуміння надмірно конкретизованих описів] / Ivandré Paraboni, Alex Gwo Jen Lan, Matheus Mendes de Sant'Ana, Flávio Luiz Coutinho. – 2017. – Vol. 43. – No. 2. – Pages 451–459. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00288 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00288
Дослідження генерування референційних виразів (ГРВ) виявили різний вплив надмірної конкретизації референтів на розуміння певних описів. Для глибшого вивчення подібного впливу у статті описано два експерименти з відстеженням руху очей, у яких вимірювався час, необхідний для розпізнавання цільових об'єктів на основі різних типів інформації. Результати свідчать, що надмірна конкретизація референтів може або сприяти, або перешкоджати ідентифікації, залежно від того, яка саме інформація занадто конкретизована. Це спостереження може стати у пригоді в розробці складніших алгоритмів ГРВ, орієнтованих на слухача.
Дослідження генерування референційних виразів (ГРВ) виявили різний вплив надмірної конкретизації референтів на розуміння певних описів. Для глибшого вивчення подібного впливу у статті описано два експерименти з відстеженням руху очей, у яких вимірювався час, необхідний для розпізнавання цільових об'єктів на основі різних типів інформації. Результати свідчать, що надмірна конкретизація референтів може або сприяти, або перешкоджати ідентифікації, залежно від того, яка саме інформація занадто конкретизована. Це спостереження може стати у пригоді в розробці складніших алгоритмів ГРВ, орієнтованих на слухача.
Переклад М. Дубка