Merlo, P. Automatic Verb Classification Based on Statistical Distributions of Argument Structure [Автоматична класифікація дієслів на основі статистичного розподілу структури аргументів] / Paola Merlo, Suzanne Stevenson // Computational linguistics. – 2001. – Vol. 27. – No. 3. – Pages 373–408. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101317066122#.WH4VC33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101317066122
У широкому колі завдань з обробки природної мови вирішальна роль належить автоматичному отриманню лексичних знань. Особливо важливою є інформація про дієслова, які є головним джерелом інформації про зв’язки у реченні, предикатно-аргументну структуру, яка пов’язує дію або стан з учасниками (тобто, хто що кому зробив). У статті описано експерименти з контрольованого навчання автоматичної класифікації трьох основних типів англійських дієслів на основі структури їх аргументів, а саме, тематичних ролей, які вони присвоюють учасникам. Для тренування класифікатора використовувались лінгвістично обґрунтовані статистичні показники, видобуті з великих за обсягом анотованих корпусів. Було досягнуто точність на рівні 69,8% для завдання, вихідна оцінка точності якого становила 34%, а вирахувана верхня експертна межа була на рівні 86,5%. Детальний аналіз продуктивності алгоритму та його помилок підтвердив, що запропоновані ознаки відображають характеристики, пов’язані з структурою аргументів дієслів. Отримані результати підтвердили гіпотези про те, що вирішальна роль у класифікації дієслів належить знанням про тематичні зв’язки і що їх можна автоматично видобути з корпусу. Таким чином, продемонстровано ефективне поєднання глибших лінгвістичних знань з надійністю та універсальністю статистичних методів.
У широкому колі завдань з обробки природної мови вирішальна роль належить автоматичному отриманню лексичних знань. Особливо важливою є інформація про дієслова, які є головним джерелом інформації про зв’язки у реченні, предикатно-аргументну структуру, яка пов’язує дію або стан з учасниками (тобто, хто що кому зробив). У статті описано експерименти з контрольованого навчання автоматичної класифікації трьох основних типів англійських дієслів на основі структури їх аргументів, а саме, тематичних ролей, які вони присвоюють учасникам. Для тренування класифікатора використовувались лінгвістично обґрунтовані статистичні показники, видобуті з великих за обсягом анотованих корпусів. Було досягнуто точність на рівні 69,8% для завдання, вихідна оцінка точності якого становила 34%, а вирахувана верхня експертна межа була на рівні 86,5%. Детальний аналіз продуктивності алгоритму та його помилок підтвердив, що запропоновані ознаки відображають характеристики, пов’язані з структурою аргументів дієслів. Отримані результати підтвердили гіпотези про те, що вирішальна роль у класифікації дієслів належить знанням про тематичні зв’язки і що їх можна автоматично видобути з корпусу. Таким чином, продемонстровано ефективне поєднання глибших лінгвістичних знань з надійністю та універсальністю статистичних методів.
Переклад І. Снєгурова
Clark, S. Class-Based Probability Estimation Using a Semantic Hierarchy [Оцінювання ймовірності на основі класу з семантичної ієрархії] / Stephen Clark, David Weir // Computational linguistics. – 2002. – Vol. 28. – No. 2. – Pages 187–206. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760173643#.WH4Vyn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760173643
У статті розглядається оцінювання конкретного типу ймовірності, а саме, ймовірності появи іменника в певному значенні в ролі певного аргументу присудка. Для того, щоб вирішити додаткову проблему недостатньої кількості даних, запропоновано визначати ймовірності відносно значень із семантичної ієрархії та скористатися тим фактом, що ці значення можна розбити на класи семантично схожих значень. Особлива увага приділяється питанню визначення класу, прийнятного для певного значення, або навпаки, визначенню рівня узагальнення, прийнятного для ієрархії. Для визначення прийнятного рівня узагальнення розроблено процедуру, яка використовує тест хі-квадрат. Ефективність цього методу оцінювання тестувалась шляхом імітування зняття омонімії і використання двох альтернативних методів оцінювання, в яких застосовано різні процедури узагальнення: в першому – принцип мінімальної довжини опису, а в другому – критерій сполучувальної переваги Резника. Окрім цього, ефективність запропонованого методу досліджувалась за допомогою як стандартного критерію хі-квадрат Пірсона, так і критерію хі-квадрат, що вираховується на основі логарифмів правдоподібності.
У статті розглядається оцінювання конкретного типу ймовірності, а саме, ймовірності появи іменника в певному значенні в ролі певного аргументу присудка. Для того, щоб вирішити додаткову проблему недостатньої кількості даних, запропоновано визначати ймовірності відносно значень із семантичної ієрархії та скористатися тим фактом, що ці значення можна розбити на класи семантично схожих значень. Особлива увага приділяється питанню визначення класу, прийнятного для певного значення, або навпаки, визначенню рівня узагальнення, прийнятного для ієрархії. Для визначення прийнятного рівня узагальнення розроблено процедуру, яка використовує тест хі-квадрат. Ефективність цього методу оцінювання тестувалась шляхом імітування зняття омонімії і використання двох альтернативних методів оцінювання, в яких застосовано різні процедури узагальнення: в першому – принцип мінімальної довжини опису, а в другому – критерій сполучувальної переваги Резника. Окрім цього, ефективність запропонованого методу досліджувалась за допомогою як стандартного критерію хі-квадрат Пірсона, так і критерію хі-квадрат, що вираховується на основі логарифмів правдоподібності.
Переклад І. Снєгурова
Gildea, D. Automatic Labeling of Semantic Roles [Автоматична розмітка семантичних ролей] / Daniel Gildea, Daniel Jurafsky // Computational linguistics. – 2002. – Vol. 28. – No. 3. – Pages 245–288. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760275983#.WH4WLn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760275983
У статті описується система автоматичної ідентифікації семантичних відносин, або семантичних ролей, заповнених складовими речення у семантичному фреймі. За наявності вхідного речення, цільового слова і фрейму система автоматично присвоює складовим або абстрактні семантичні ролі, такі як Агенс або Паціенс, або більш предметно-орієнтовані семантичні ролі, такі як Мовець, Повідомлення і Тема.
Система базується на статистичних класифікаторах, навчених приблизно на 50 000 реченнях, які були вручну анотовані семантичними ролями учасниками проекту семантичної розмітки FrameNet. Потім було побудовано синтаксичні дерева всіх навчальних речень і видобуто різні лексичні та синтаксичні характеристики, зокрема тип словосполучення кожного складника, його граматичну функцію і місце в реченні. Ці характеристики були об'єднані з інформацією про дієслово-предикат, іменник чи прикметник, а також з інформацією про апріорну імовірність різних комбінацій семантичних ролей. Для того щоб зробити висновки щодо можливих заповнювачів ролей, використовувались різні алгоритми кластеризації лексики. Тестування включало синтаксичний аналіз речень, анотування їх виділеними характеристиками і пропускання через класифікатори.
Точність визначення системою семантичних ролей попередньо сегментованих складників досягає 82%. Точність виконання складнішого завдання одночасної сегментації складових і визначення їх семантичної ролі досягла 65% при повноті 61%.
Здійснене дослідження також дозволило порівняти корисність різних характеристик та їх комбінацій для анотування семантичних ролей. Також досліджена інтеграція анотування ролей із статистичним синтаксичним аналізом і здійснена спроба зробити узагальнення для предикатів, які не зустрілися в навчальних даних.
У статті описується система автоматичної ідентифікації семантичних відносин, або семантичних ролей, заповнених складовими речення у семантичному фреймі. За наявності вхідного речення, цільового слова і фрейму система автоматично присвоює складовим або абстрактні семантичні ролі, такі як Агенс або Паціенс, або більш предметно-орієнтовані семантичні ролі, такі як Мовець, Повідомлення і Тема.
Система базується на статистичних класифікаторах, навчених приблизно на 50 000 реченнях, які були вручну анотовані семантичними ролями учасниками проекту семантичної розмітки FrameNet. Потім було побудовано синтаксичні дерева всіх навчальних речень і видобуто різні лексичні та синтаксичні характеристики, зокрема тип словосполучення кожного складника, його граматичну функцію і місце в реченні. Ці характеристики були об'єднані з інформацією про дієслово-предикат, іменник чи прикметник, а також з інформацією про апріорну імовірність різних комбінацій семантичних ролей. Для того щоб зробити висновки щодо можливих заповнювачів ролей, використовувались різні алгоритми кластеризації лексики. Тестування включало синтаксичний аналіз речень, анотування їх виділеними характеристиками і пропускання через класифікатори.
Точність визначення системою семантичних ролей попередньо сегментованих складників досягає 82%. Точність виконання складнішого завдання одночасної сегментації складових і визначення їх семантичної ролі досягла 65% при повноті 61%.
Здійснене дослідження також дозволило порівняти корисність різних характеристик та їх комбінацій для анотування семантичних ролей. Також досліджена інтеграція анотування ролей із статистичним синтаксичним аналізом і здійснена спроба зробити узагальнення для предикатів, які не зустрілися в навчальних даних.
Переклад К. Погорєлова
Lapata, M. A Probabilistic Account of Logical Metonymy [Вірогіднісне пояснення логічної метонімії] / Maria Lapata, Alex Lascarides // Computational linguistics. – 2003. – Vol. 29. – No. 2. – Pages 261–315. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322145324#.WIXKIH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322145324
У статті досліджується логічна метонімія, тобто конструкції, в яких аргумент слова, виражений синтаксичною одиницею, відрізняється від цього аргументу, вираженого одиницею логічною (наприклад, «отримати задоволення від книги» означає «отримати задоволення від читання книги», а «легка проблема» - це «проблема, яку легко вирішити»). Систематичне варіювання інтерпретації подібних конструкцій вимагає детального і складного пояснення утворень на основі зв’язку між синтаксисом і семантикою. Лінгвістичні пояснення логічної метонімії, як правило, не дають вичерпного опису всіх можливих інтерпретацій або не ранжують ці інтерпретації з точки зору їх вірогідності. Тому значення метонімічних дієслів і прикметників було видобуто з великого корпусу, також була запропонована вірогіднісна модель, яка дозволяє здійснити ранжування на основі набору можливих інтерпретацій. Інтерпретації визначаються автоматично на основі постійних відповідностей між поверховими синтаксичними ознаками і значенням. Отримані результати оцінювалися за допомогою перефразувань, отриманих від учасників експерименту. Показано, що здійснене моделлю ранжування значень надійно корелює з людською інтуіцією.
У статті досліджується логічна метонімія, тобто конструкції, в яких аргумент слова, виражений синтаксичною одиницею, відрізняється від цього аргументу, вираженого одиницею логічною (наприклад, «отримати задоволення від книги» означає «отримати задоволення від читання книги», а «легка проблема» - це «проблема, яку легко вирішити»). Систематичне варіювання інтерпретації подібних конструкцій вимагає детального і складного пояснення утворень на основі зв’язку між синтаксисом і семантикою. Лінгвістичні пояснення логічної метонімії, як правило, не дають вичерпного опису всіх можливих інтерпретацій або не ранжують ці інтерпретації з точки зору їх вірогідності. Тому значення метонімічних дієслів і прикметників було видобуто з великого корпусу, також була запропонована вірогіднісна модель, яка дозволяє здійснити ранжування на основі набору можливих інтерпретацій. Інтерпретації визначаються автоматично на основі постійних відповідностей між поверховими синтаксичними ознаками і значенням. Отримані результати оцінювалися за допомогою перефразувань, отриманих від учасників експерименту. Показано, що здійснене моделлю ранжування значень надійно корелює з людською інтуіцією.
Переклад В. Коломієць
Mason, Z.J. CorMet: A Computational, Corpus-Based Conventional Metaphor Extraction System [Корпусно-базована система автоматичного видобування стертих метафор] / Zachary J. Mason // Computational linguistics. – 2004. – Vol. 30. – No. 1. – Pages 23–44. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104773633376#.WH4W533sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104773633376
CorMet – це корпусно-базована система виявлення метафоричних відповідностей між концептами. Вона виконує це завдання, знаходячи систематичне варіювання в характерних для тематичної області преференціях вибору, отриманих із великих, динамічно досліджених Інтернет-корпусів.
Метафори переводять структуру з вихідної предметної області в цільову предметну область, роблячи деякі концепти в цільовій предметній області метафорично еквівалентними концептам у вихідній предметній області. Дієслова, які обирають концепт у вихідній предметній області, як правило, обирають його метафоричний еквивалент у цільовій предметній області. Ця закономірність, що виявляється за допомогою поверхневого лінгвістичного аналізу, використовується для знаходження метафоричних міжконцептуальних відповідностей, за допомогою яких можна потім зробити висновок про існування стертих метафор вищого рівня.
У більшості інших систем автоматичного виявлення метафор використовуються невеликі, запрограмовані вручну бази знань для семантичного аналізу й невелика кількість прикладів. Хоча єдиною базою знань системи CorMet є Word Net (С. Fellbaum, 1998), вона може виявити відповідності, які утворюють велику кількість стертих метафор, і в деяких випадках розпізнати речення, у яких ці відповідності реалізовані. Здійснена перевірка здатності CorMet виявити підгрупу списку основних метафор (G. Lakoff, J. Espenson, and A. Schwartz, 1991).
CorMet – це корпусно-базована система виявлення метафоричних відповідностей між концептами. Вона виконує це завдання, знаходячи систематичне варіювання в характерних для тематичної області преференціях вибору, отриманих із великих, динамічно досліджених Інтернет-корпусів.
Метафори переводять структуру з вихідної предметної області в цільову предметну область, роблячи деякі концепти в цільовій предметній області метафорично еквівалентними концептам у вихідній предметній області. Дієслова, які обирають концепт у вихідній предметній області, як правило, обирають його метафоричний еквивалент у цільовій предметній області. Ця закономірність, що виявляється за допомогою поверхневого лінгвістичного аналізу, використовується для знаходження метафоричних міжконцептуальних відповідностей, за допомогою яких можна потім зробити висновок про існування стертих метафор вищого рівня.
У більшості інших систем автоматичного виявлення метафор використовуються невеликі, запрограмовані вручну бази знань для семантичного аналізу й невелика кількість прикладів. Хоча єдиною базою знань системи CorMet є Word Net (С. Fellbaum, 1998), вона може виявити відповідності, які утворюють велику кількість стертих метафор, і в деяких випадках розпізнати речення, у яких ці відповідності реалізовані. Здійснена перевірка здатності CorMet виявити підгрупу списку основних метафор (G. Lakoff, J. Espenson, and A. Schwartz, 1991).
Переклад В. Коломієць
Girju, R. Automatic Discovery of Part-Whole Relations [Автоматичне виявлення відношень частина-ціле] / Roxana Girju, Adriana Badulescu, Dan Moldovan // Computational linguistics. – 2006. – Vol. 32. – No. 1. – Pages 83–135. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.1.83#.WH4Y4n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.1.83
Важливим компонентом видобування знань із текстів є автоматичне виявлення семантичних відношень. У статті представлено контрольований, семантично інтенсивний, незалежний від тематичної області підхід до автоматичного виявлення у тексті відношень частина–ціле. Спочатку описано алгоритм, який виявляє лексико-синтаксичні структури, які передають відношення частина–ціле. Складність полягає в тому, що ці структури також передають інші семантичні відношення і потрібен якийсь метод навчання, щоб з’ясувати, чи передає структура відношення частина–ціле, чи ні. Було проанотовано й уведено в спеціалізовану систему машинного навчання, яка навчається правилам класифікації, великий набір тренувальних прикладів. Правила генеруються за допомогою застосування ітеративного методу семантичної спеціалізації до складників іменних груп. Таким чином були згенеровані правила класифікації для різних структур, таких як присвійний відмінок, складні іменники та іменні групи з прийменниковими словосполученнями, для того щоб виявляти у них відношення частина–ціле. Придатність цих правил була перевірена на тестовому корпусі, вони показали загальну середню точність 80,95% і повноту 75,91%. Наведені результати свідчать про необхідність зняття лексичної багатозначності для цього завдання. Вони також свідчать, що різні лексико-синтаксичні структури несуть різну семантичну інформацію й повинні оброблятись окремо, тобто до різних структур потрібно застосовувати різні правила тлумачення.
Важливим компонентом видобування знань із текстів є автоматичне виявлення семантичних відношень. У статті представлено контрольований, семантично інтенсивний, незалежний від тематичної області підхід до автоматичного виявлення у тексті відношень частина–ціле. Спочатку описано алгоритм, який виявляє лексико-синтаксичні структури, які передають відношення частина–ціле. Складність полягає в тому, що ці структури також передають інші семантичні відношення і потрібен якийсь метод навчання, щоб з’ясувати, чи передає структура відношення частина–ціле, чи ні. Було проанотовано й уведено в спеціалізовану систему машинного навчання, яка навчається правилам класифікації, великий набір тренувальних прикладів. Правила генеруються за допомогою застосування ітеративного методу семантичної спеціалізації до складників іменних груп. Таким чином були згенеровані правила класифікації для різних структур, таких як присвійний відмінок, складні іменники та іменні групи з прийменниковими словосполученнями, для того щоб виявляти у них відношення частина–ціле. Придатність цих правил була перевірена на тестовому корпусі, вони показали загальну середню точність 80,95% і повноту 75,91%. Наведені результати свідчать про необхідність зняття лексичної багатозначності для цього завдання. Вони також свідчать, що різні лексико-синтаксичні структури несуть різну семантичну інформацію й повинні оброблятись окремо, тобто до різних структур потрібно застосовувати різні правила тлумачення.
Переклад В. Коломієць
Schulte im Walde, S. Experiments on the Automatic Induction of German Semantic Verb Classes [Експерименти з автоматичною індукцією семантичних класів німецьких дієслів] / Sabine Schulte im Walde // Computational linguistics. – 2006. – Vol. 32. – No. 2. – Pages 159–194. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.2.159#.WH4Zq33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.2.159
У статті описано експерименти з класифікації німецьких дієслів. Джерелом дистрибутивного опису дієслів на стику лексичного синтаксису і лексичної семантики виступає статистична граматична модель німецкої мови, а алгоритм навчання ознак без учителя k-means використовує емпіричні характеристики дієслів для здійснення автоматичної індукції класів дієслів. Для порівняння за різними критеріями результатів класифікації з золотим стандартом семантичних класів німецьких дієслів використано різні мірки оцінювання. Основними цілями експериментів було (1) емпіричне застосування і дослідження добре усталеного зв’язку між значенням дієслова і його поведінкою у кластерному аналізі і (2) аналіз технічних параметрів кластерного аналізу, потрібних для виконання цього специфічного лінгвістичного завдання. Методика класифікації була розроблена на невеликому наборі дієслів, а потім застосована до великого набору, який складався з 883 намецьких дієслів.
У статті описано експерименти з класифікації німецьких дієслів. Джерелом дистрибутивного опису дієслів на стику лексичного синтаксису і лексичної семантики виступає статистична граматична модель німецкої мови, а алгоритм навчання ознак без учителя k-means використовує емпіричні характеристики дієслів для здійснення автоматичної індукції класів дієслів. Для порівняння за різними критеріями результатів класифікації з золотим стандартом семантичних класів німецьких дієслів використано різні мірки оцінювання. Основними цілями експериментів було (1) емпіричне застосування і дослідження добре усталеного зв’язку між значенням дієслова і його поведінкою у кластерному аналізі і (2) аналіз технічних параметрів кластерного аналізу, потрібних для виконання цього специфічного лінгвістичного завдання. Методика класифікації була розроблена на невеликому наборі дієслів, а потім застосована до великого набору, який складався з 883 намецьких дієслів.
Переклад В. Коломієць
Turney, P. Similarity of Semantic Relations [Схожість семантичних відносин] / Peter D. Turney // Computational linguistics. – 2006. – Vol. 32. – No. 3. – Pages 379–416. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.3.379#.WH4aQH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.3.379
Існує принаймні два типи схожості. Реляційна схожість – це відповідність між відносинами, в той час як атрибутивна схожість – це відповідність між характеристиками. Коли два слова мають високий ступінь атрибутивної схожості, вони називаються синонімами. Коли два слова мають високий ступінь реляційної схожості, кажуть, що їх відносини є аналогічними. Наприклад, пара слів каменяр:камінь є аналогічною парі тесляр:дерево. У статті описано латентний реляційний аналіз (Latent Relational Analysis, скор. LRA), метод визначення реляційної схожості. LRA може бути застосований у багатьох областях, зокрема видобуванні інформації, знятті лексичної багатозначності та інформаційному пошуці. Нещодавно для визначення релаційної схожості було адаптовано векторну модель (Vector Space Model, скор. VSM) видобування інформації й отримано результат 47% у тесті, який складався з 374 завдань вибору схожих слів із множин у межах університетської програми. У моделі VSM відносини між парою слів характеризуються вектором частоти попередньо заданих шаблонів у великому корпусі. LRA є розширенням моделі VSM у трьох напрямах. (1) Шаблони видобуваються з корпусу автоматично, (2) для згладжування даних частоти використовується сингулярне розкладання (Singular Value Decomposition, скор. SVD) і (3) варіанти пар слів аналізуються за допомогою автоматично згенерованих синонімів. LRA досягає результату 56% у тесті з 374 питань про схожіть слів, статистичного еквіваленту середнього результату виконання тесту людиною, що становить 57%. У спорідненому завданні класифікації семантичних відносин LRA має аналогічні переваги над VSM.
Існує принаймні два типи схожості. Реляційна схожість – це відповідність між відносинами, в той час як атрибутивна схожість – це відповідність між характеристиками. Коли два слова мають високий ступінь атрибутивної схожості, вони називаються синонімами. Коли два слова мають високий ступінь реляційної схожості, кажуть, що їх відносини є аналогічними. Наприклад, пара слів каменяр:камінь є аналогічною парі тесляр:дерево. У статті описано латентний реляційний аналіз (Latent Relational Analysis, скор. LRA), метод визначення реляційної схожості. LRA може бути застосований у багатьох областях, зокрема видобуванні інформації, знятті лексичної багатозначності та інформаційному пошуці. Нещодавно для визначення релаційної схожості було адаптовано векторну модель (Vector Space Model, скор. VSM) видобування інформації й отримано результат 47% у тесті, який складався з 374 завдань вибору схожих слів із множин у межах університетської програми. У моделі VSM відносини між парою слів характеризуються вектором частоти попередньо заданих шаблонів у великому корпусі. LRA є розширенням моделі VSM у трьох напрямах. (1) Шаблони видобуваються з корпусу автоматично, (2) для згладжування даних частоти використовується сингулярне розкладання (Singular Value Decomposition, скор. SVD) і (3) варіанти пар слів аналізуються за допомогою автоматично згенерованих синонімів. LRA досягає результату 56% у тесті з 374 питань про схожіть слів, статистичного еквіваленту середнього результату виконання тесту людиною, що становить 57%. У спорідненому завданні класифікації семантичних відносин LRA має аналогічні переваги над VSM.
Переклад В. Коломієць
Padó, S. Dependency-Based Construction of Semantic Space Models [Розробка моделей семантичного простору на основі залежностей] / Sebastian Padó, Mirella Lapata // Computational linguistics. – 2007. – Vol. 33. – No. 2. – Pages 161–199. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.2.161#.WH4anH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.2.161
Як правило, для представлення лексичного значення векторні моделі семантичного простору використовують статистику сумісного вживання слів у великих за обсягом корпусах текстів. У статті описано новий підхід до побудови семантичних просторів, який враховує синтаксичні зв’язки. Запропоновано алгоритм для цього класу моделей, завдяки якому процес розробки керується лінгвістичними знаннями. Запропонований підхід оцінено за допомогою низки завдань, пов’язаних із когнітивною наукою і обробкою природної мови: семантичного праймінгу, встановлення синонімії і зняття лексичної багатозначності. В усіх випадках, запропонований підхід не поступається за ефективністю існуючим методам або перевершує їх.
Як правило, для представлення лексичного значення векторні моделі семантичного простору використовують статистику сумісного вживання слів у великих за обсягом корпусах текстів. У статті описано новий підхід до побудови семантичних просторів, який враховує синтаксичні зв’язки. Запропоновано алгоритм для цього класу моделей, завдяки якому процес розробки керується лінгвістичними знаннями. Запропонований підхід оцінено за допомогою низки завдань, пов’язаних із когнітивною наукою і обробкою природної мови: семантичного праймінгу, встановлення синонімії і зняття лексичної багатозначності. В усіх випадках, запропонований підхід не поступається за ефективністю існуючим методам або перевершує їх.
Переклад М. Погребної
Màrquez, L. Semantic Role Labeling: An Introduction to the Special Issue [Анотування семантичних ролей: вступ до спеціального випуску] / Lluís Màrquez, Xavier Carreras, Kenneth C. Litkowski, Suzanne Stevenson // Computational linguistics. – 2008. – Vol. 34. – No. 2. – Pages 145–159. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.2.145#.WJza-_LsSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.145
Анотування семантичних ролей, автоматична ідентифікація і маркування аргументів у тексті, стало сьогодні провідним завданням у комп’ютерній лінгвістиці. Хоча проблеми, пов'язані з цим завданням, вивчалися протягом багатьох десятиліть, наявність потужних ресурсів і розробка методів статистичного машинного навчання збільшили кількість досліджень у цій царині. В цьому спеціальному випуску журналу представлені вибрані й показові праці в цій царині. Цей огляд містить опис лінгвістичного підгрунтя проблеми, переходу від лінгвістичних теорій до їх комп’ютерної реалізації, основних використовуваних ресурсів, опис етапів роботи обчислювальних систем, а також перелік основних проблем і результатів анотування семантичних ролей (представлених у кількох міжнародних аналітичних звітах). В огляді проаналізовані недоліки в анотуванні семантичних ролей і вказані важливі проблеми в цій царині, які потребують розв’язання. Загалом, подальші результативні дослідження в царині анотування семантичних ролей є надзвичайно перспективними.
Анотування семантичних ролей, автоматична ідентифікація і маркування аргументів у тексті, стало сьогодні провідним завданням у комп’ютерній лінгвістиці. Хоча проблеми, пов'язані з цим завданням, вивчалися протягом багатьох десятиліть, наявність потужних ресурсів і розробка методів статистичного машинного навчання збільшили кількість досліджень у цій царині. В цьому спеціальному випуску журналу представлені вибрані й показові праці в цій царині. Цей огляд містить опис лінгвістичного підгрунтя проблеми, переходу від лінгвістичних теорій до їх комп’ютерної реалізації, основних використовуваних ресурсів, опис етапів роботи обчислювальних систем, а також перелік основних проблем і результатів анотування семантичних ролей (представлених у кількох міжнародних аналітичних звітах). В огляді проаналізовані недоліки в анотуванні семантичних ролей і вказані важливі проблеми в цій царині, які потребують розв’язання. Загалом, подальші результативні дослідження в царині анотування семантичних ролей є надзвичайно перспективними.
Переклад В. Коломієць
Toutanova, K. A Global Joint Model for Semantic Role Labeling [Глобальна об’єднана модель для розмітки семантичних ролей] / Kristina Toutanova, Aria Haghighi, Christopher D. Manning // Computational linguistics. – 2008. – Vol. 34. – No. 2. – Pages 161–191. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.2.161#.WH4bp33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.161
У статті описана модель розмітки семантичних ролей, у якій відображена мовна здогадка про те, що фрейм семантичного аргументу є об’єднаною структурою зі стійкими залежностями між аргументами. Продемонстровано, як використати ці стійкі залежності у статистичній об’єднаній моделі з великим набором ознак словосполучень із множинними аргументами. Запропонована модель значно перевершує подібну найпродуктивнішу локальну модель, яка не включає залежності між різними аргументами.
Оцінено переваги застосування цієї комбінованої інформації в корпусі Propbank при використанні в якості вхідних даних безпомилкових і автоматично породжених дерев залежностей. До переваг належить зменшення до 24,1% кількості помилок для всіх аргументів і до 36,8% для ядерних аргументів синтаксичних дерев золотого стандарту. При використанні автоматично породжених синтаксичних дерев кількість помилок зменшилась, відповідно, на 8,3% для всіх аргументів і на 10,3% для ядерних аргументів. Також описано результати на об’єднаному наборі даних конференції CoNLL 2005. На додаток, досліджено можливість застосування різних видів синтаксичного аналізу для подолання шуму і невизначеності синтаксичного аналізатора.
У статті описана модель розмітки семантичних ролей, у якій відображена мовна здогадка про те, що фрейм семантичного аргументу є об’єднаною структурою зі стійкими залежностями між аргументами. Продемонстровано, як використати ці стійкі залежності у статистичній об’єднаній моделі з великим набором ознак словосполучень із множинними аргументами. Запропонована модель значно перевершує подібну найпродуктивнішу локальну модель, яка не включає залежності між різними аргументами.
Оцінено переваги застосування цієї комбінованої інформації в корпусі Propbank при використанні в якості вхідних даних безпомилкових і автоматично породжених дерев залежностей. До переваг належить зменшення до 24,1% кількості помилок для всіх аргументів і до 36,8% для ядерних аргументів синтаксичних дерев золотого стандарту. При використанні автоматично породжених синтаксичних дерев кількість помилок зменшилась, відповідно, на 8,3% для всіх аргументів і на 10,3% для ядерних аргументів. Також описано результати на об’єднаному наборі даних конференції CoNLL 2005. На додаток, досліджено можливість застосування різних видів синтаксичного аналізу для подолання шуму і невизначеності синтаксичного аналізатора.
Переклад І. Снєгурова, М. Погребної
Moschitti, A. Tree Kernels for Semantic Role Labeling [Кернфункції для анотування семантичних ролей] / Alessandro Moschitti, Daniele Pighin, Roberto Basili // Computational linguistics. – 2008. – Vol. 34. – No. 2. – Pages 193–224. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.2.193#.WH4b633sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.193
Доступність масштабних наборів даних з анотованими вручну предикатно-аргументними структурами останнім часом сприяла використанню методів машинного навчання у розробці систем автоматичного анотування семантичних ролей. Головна увага дослідників у цій області прикута до вибору способів представлення ознак і способу ефективного декомпозування завдання в різних моделях навчання. Щодо першого способу, використовуються переважно структурні параметри повних синтаксичних розборів, оскільки вони представляють способи програмування різних принципів, підказаних теорією зв’язку між синтаксисом і семантикою. Другий спосіб пов’язаний з кількома навчальними схемами на основі загальних уявлень про синтаксичні аналізатори. Наприклад, етапи зміни ранжування на основі альтернативних предикатно-аргументних послідовностей того самого речення виявились дуже ефективними.
У статті запропоновано кілька кернфункцій для моделювання характеристик синтаксичних дерев у автоматах на основі кернфункцій, наприклад перцептронах або машинах опорних векторів. Зокрема, різні види ядер послідовностей на деревах описуються як загальні підходи до проектування ознак у анотуванні семантичних ролей. Більше того, проведено велику кількість експериментів з такими ядрами для дослідження їх ролі на окремих етапах структури анотування семантичних ролей, як окремо, так і разом з іншими ознаками, які традиційно анотуються вручну. Результати розпізнавання меж, класифікації і зміни ранжування свідчать про значний вплив кернфункцій на загальну точність, особливо якщо кількість тренувальних даних незначна. На закінчення, кернфункції уможливлюють загальний і портативний метод проектування ознак, який можна застосувати до великої кількості завдань обробки природної мови.
Доступність масштабних наборів даних з анотованими вручну предикатно-аргументними структурами останнім часом сприяла використанню методів машинного навчання у розробці систем автоматичного анотування семантичних ролей. Головна увага дослідників у цій області прикута до вибору способів представлення ознак і способу ефективного декомпозування завдання в різних моделях навчання. Щодо першого способу, використовуються переважно структурні параметри повних синтаксичних розборів, оскільки вони представляють способи програмування різних принципів, підказаних теорією зв’язку між синтаксисом і семантикою. Другий спосіб пов’язаний з кількома навчальними схемами на основі загальних уявлень про синтаксичні аналізатори. Наприклад, етапи зміни ранжування на основі альтернативних предикатно-аргументних послідовностей того самого речення виявились дуже ефективними.
У статті запропоновано кілька кернфункцій для моделювання характеристик синтаксичних дерев у автоматах на основі кернфункцій, наприклад перцептронах або машинах опорних векторів. Зокрема, різні види ядер послідовностей на деревах описуються як загальні підходи до проектування ознак у анотуванні семантичних ролей. Більше того, проведено велику кількість експериментів з такими ядрами для дослідження їх ролі на окремих етапах структури анотування семантичних ролей, як окремо, так і разом з іншими ознаками, які традиційно анотуються вручну. Результати розпізнавання меж, класифікації і зміни ранжування свідчать про значний вплив кернфункцій на загальну точність, особливо якщо кількість тренувальних даних незначна. На закінчення, кернфункції уможливлюють загальний і портативний метод проектування ознак, який можна застосувати до великої кількості завдань обробки природної мови.
Переклад В. Коломієць
Xue, N. Labeling Chinese Predicates with Semantic Roles [Анотування семантичних ролей китайських присудків] / Nianwen Xue // Computational linguistics. – 2008. – Vol. 34. – No. 2. – Pages 225–255. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.2.225#.WH4cOn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.225
У статті описано анотування семантичних ролей у китайській мові, виконане у двох щойно створених корпусах: китайському PropBank, семантично анотованому корпусі китайських дієслів, і китайському Nombank, супутньому корпусі, який містить розмітку предикатно-аргументних структур субстантивованих присудків. Оскільки поміти семантичних ролей присвоюються складникам синтаксичного дерева, у статті спочатку описано експерименти, в яких поміти семантичних ролей автоматично присвоювались побудованим вручну синтаксичним деревам із корпусу Chinese Treebank. Це дало уявлення про ефективність автоматичного визначення поміт семантичних ролей на основі синтаксичної анотації в банку синтаксичних дерев. Потім описано експерименти з використанням автоматичного синтаксичного розбору і зменшенням обсягу ручного анотування даних, які вводяться до синтаксичного аналізатора: автоматичний синтаксичний аналіз на основі золотого стандарту сегментації і частиномовної розмітки, автоматичний синтаксичний аналіз тільки на основі золотого стандарту сегментації і повністю автоматичний синтаксичний аналіз. Ці експерименти визначали, наскільки ефективною може бути анотування семантичних ролей у китайській мові в реальних ситуаціях. Отримані результати свідчать, що за умови застосування синтаксичних дерев, побудованих вручну, точність анотування семантичних ролей у китайській мові співставна з точністю сучасних систем анотування семантичних ролей в англійській мові, налаштованих і протестованих на англійському корпусі PropBank, хоча китайський PropBank значно менше за розміром. Проте, коли використовується автоматичний синтаксичний аналізатор, точність створеної системи значно нижче, ніж точність сучасних систем аналізу англійської мови. Це означає, що для підвищення ефективності анотування семантичних ролей у китайській мові необхідно удосконалити автоматичний синтаксичний аналіз китайської мови.
У статті описано анотування семантичних ролей у китайській мові, виконане у двох щойно створених корпусах: китайському PropBank, семантично анотованому корпусі китайських дієслів, і китайському Nombank, супутньому корпусі, який містить розмітку предикатно-аргументних структур субстантивованих присудків. Оскільки поміти семантичних ролей присвоюються складникам синтаксичного дерева, у статті спочатку описано експерименти, в яких поміти семантичних ролей автоматично присвоювались побудованим вручну синтаксичним деревам із корпусу Chinese Treebank. Це дало уявлення про ефективність автоматичного визначення поміт семантичних ролей на основі синтаксичної анотації в банку синтаксичних дерев. Потім описано експерименти з використанням автоматичного синтаксичного розбору і зменшенням обсягу ручного анотування даних, які вводяться до синтаксичного аналізатора: автоматичний синтаксичний аналіз на основі золотого стандарту сегментації і частиномовної розмітки, автоматичний синтаксичний аналіз тільки на основі золотого стандарту сегментації і повністю автоматичний синтаксичний аналіз. Ці експерименти визначали, наскільки ефективною може бути анотування семантичних ролей у китайській мові в реальних ситуаціях. Отримані результати свідчать, що за умови застосування синтаксичних дерев, побудованих вручну, точність анотування семантичних ролей у китайській мові співставна з точністю сучасних систем анотування семантичних ролей в англійській мові, налаштованих і протестованих на англійському корпусі PropBank, хоча китайський PropBank значно менше за розміром. Проте, коли використовується автоматичний синтаксичний аналізатор, точність створеної системи значно нижче, ніж точність сучасних систем аналізу англійської мови. Це означає, що для підвищення ефективності анотування семантичних ролей у китайській мові необхідно удосконалити автоматичний синтаксичний аналіз китайської мови.
Переклад В. Коломієць
Punyakanok, V. The Importance of Syntactic Parsing and Inference in Semantic Role Labeling [Роль автоматичного синтаксичного аналізу і логічного виведення в анотуванні семантичних ролей] / Vasin Punyakanok, Dan Roth, Wen-tau Yih // Computational linguistics. – 2008. – Vol. 34. – No. 2. – Pages 257–287. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.2.257#.WH4cfn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.257
У статті описано загальний підхід до анотування семантичних ролей. Цей підхід поєднує машинне навчання з процедурою логічного виведення на основі цілочислового лінійного програмування, яке включає у загальний процес прийняття рішень лінгвістичні й структурні обмеження. У таких рамках розглядається роль даних автоматичного синтаксичного аналізу в анотуванні семантичних ролей. Продемонстровано, що повні дані автоматичного синтаксичного аналізу безумовно є найнеобхіднішими для визначення аргументу, особливо на найпершій стадії – стадії обрізки. Як не дивно, якість стадії обрізки не може визначатись виключно на основі її точності та повноти. Натомість вона залежить від характеристик можливих вихідних змінних, від яких залежить складність наступних проблем. Виходячи з цього спостереження, запропоновано ефективний і простий метод комбінування різних систем анотування семантичних ролей шляхом об’єднаного логічного виведення, який значно поліпшує його результативність.
Створена система була оцінена на об’єднаному наборі для анотування семантичних ролей конференції CoNLL-2005 і отримала найвищий показник F1 з 19 учасників.
У статті описано загальний підхід до анотування семантичних ролей. Цей підхід поєднує машинне навчання з процедурою логічного виведення на основі цілочислового лінійного програмування, яке включає у загальний процес прийняття рішень лінгвістичні й структурні обмеження. У таких рамках розглядається роль даних автоматичного синтаксичного аналізу в анотуванні семантичних ролей. Продемонстровано, що повні дані автоматичного синтаксичного аналізу безумовно є найнеобхіднішими для визначення аргументу, особливо на найпершій стадії – стадії обрізки. Як не дивно, якість стадії обрізки не може визначатись виключно на основі її точності та повноти. Натомість вона залежить від характеристик можливих вихідних змінних, від яких залежить складність наступних проблем. Виходячи з цього спостереження, запропоновано ефективний і простий метод комбінування різних систем анотування семантичних ролей шляхом об’єднаного логічного виведення, який значно поліпшує його результативність.
Створена система була оцінена на об’єднаному наборі для анотування семантичних ролей конференції CoNLL-2005 і отримала найвищий показник F1 з 19 учасників.
Переклад В. Коломієць
Pradhan, S. Towards Robust Semantic Role Labeling [Створення робастної системи анотування семантичних ролей] / Sameer S. Pradhan, Wayne Ward, James H. Martin // Computational linguistics. – 2008. – Vol. 34. – No. 2. – Pages 289–310. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.2.289#.WH4fr33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.289
Більшість досліджень анотування семантичних ролей присвячені тренуванню і оцінюванню на одному й тому ж корпусі. Такий підхід, хоч і є прийнятним для проведення нового дослідження, може призвести до перенавчання на одному корпусі. У статті описано принципи роботи новітньої системи анотування семантичних ролей ASSERT і проаналізовано надійність цієї системи, коли її тренують на одній категорії даних і використовують для анотування іншої категорії. Стаття починається з опису результатів тренування і тестування системи на корпусі PropBank, який містить анотовані тексти з газети Wall Street Journal (скор. WSJ). Потім описано експерименти для оцінки можливості перенесення системи на інше джерело даних. Ці експерименти полягають у порівнянні результатів при використанні матеріалів з WSJ і матеріалів з корпусу Brown Corpus, які містяться в корпусі PropBank. Результати свідчать, що хоча синтаксичний аналіз та ідентифікація аргументів переносяться на новий корпус порівняно добре, цього не можна сказати про класифікацію аргументів. Наведено аналіз причин цієї ситуації, які загалом вказують на природу здебільшого лексичних/семантичних ознак, які переважають у завданні класифікації, в той час як у завданні ідентифікації аргументів переважають структурні ознаки загального характеру.
Більшість досліджень анотування семантичних ролей присвячені тренуванню і оцінюванню на одному й тому ж корпусі. Такий підхід, хоч і є прийнятним для проведення нового дослідження, може призвести до перенавчання на одному корпусі. У статті описано принципи роботи новітньої системи анотування семантичних ролей ASSERT і проаналізовано надійність цієї системи, коли її тренують на одній категорії даних і використовують для анотування іншої категорії. Стаття починається з опису результатів тренування і тестування системи на корпусі PropBank, який містить анотовані тексти з газети Wall Street Journal (скор. WSJ). Потім описано експерименти для оцінки можливості перенесення системи на інше джерело даних. Ці експерименти полягають у порівнянні результатів при використанні матеріалів з WSJ і матеріалів з корпусу Brown Corpus, які містяться в корпусі PropBank. Результати свідчать, що хоча синтаксичний аналіз та ідентифікація аргументів переносяться на новий корпус порівняно добре, цього не можна сказати про класифікацію аргументів. Наведено аналіз причин цієї ситуації, які загалом вказують на природу здебільшого лексичних/семантичних ознак, які переважають у завданні класифікації, в той час як у завданні ідентифікації аргументів переважають структурні ознаки загального характеру.
Переклад В. Коломієць
Jørgensen, F. A Minimal Recursion Semantic Analysis of Locatives [Семантичний аналіз локативів з мінімальною рекурсією] / Fredrik Jørgensen, Jan Tore Lønning // Computational linguistics. – 2009. – Vol. 35. – No. 2. – Pages 229–270. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.06-69-prep5#.WH4g133sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.06-69-prep5
У статті описана пілотна реалізація граматики, яка містить різні типи локативних прийменникових груп. А саме, досліджено різницю між статичними і директивними локативами, а також між різними видами директивних локативів. У залежності від синтаксичного оточення локативи можуть бути як обставинами, так і референціальними виразами. Ми застосовуємо до них єдиний підхід. Граматика реалізована на матеріалі норвезьких локативів, але в статті і аналізуються, і порівнюються з норвезькими англійські локативи. Семантичний аналіз здійснено на основі пропозиції Маркуса Крахта (Markus Kracht, 2002). Продемонстровано, як можна вбудувати цей аналіз у семантику з мінімальною рекурсією (англ. Minimal Recursion Semantics, скор. MRS) (Copestake et al., 2005). Показано, як можна застосувати отриману систему в трансферній системі машинного перекладу і як можна поверхневе нерекурсивне представлення семантики перетворити на глибше семантичне представлення.
У статті описана пілотна реалізація граматики, яка містить різні типи локативних прийменникових груп. А саме, досліджено різницю між статичними і директивними локативами, а також між різними видами директивних локативів. У залежності від синтаксичного оточення локативи можуть бути як обставинами, так і референціальними виразами. Ми застосовуємо до них єдиний підхід. Граматика реалізована на матеріалі норвезьких локативів, але в статті і аналізуються, і порівнюються з норвезькими англійські локативи. Семантичний аналіз здійснено на основі пропозиції Маркуса Крахта (Markus Kracht, 2002). Продемонстровано, як можна вбудувати цей аналіз у семантику з мінімальною рекурсією (англ. Minimal Recursion Semantics, скор. MRS) (Copestake et al., 2005). Показано, як можна застосувати отриману систему в трансферній системі машинного перекладу і як можна поверхневе нерекурсивне представлення семантики перетворити на глибше семантичне представлення.
Переклад В. Коломієць
Tsang, V. A Graph-Theoretic Framework for Semantic Distance [Теоретико-графічна модель семантичної відстані] / Vivian Tsang, Suzanne Stevenson // Computational linguistics. – 2010. – Vol. 36. – No. 1. – Pages 31–69. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2010.36.1.36101#.WH4hmH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2010.36.1.36101
Багато програм для обробки природної мови потребують класифікації текстів на основі семантичної відстані між ними (наскільки схожими або різними є ці тексти). Наприклад, порівнюючи текст нового документу з текстами документів на відомі теми, можна визначити тему нового тексту. Як правило, для визначення імпліцитної семантичної відстані між двома частинами тексту використовується дистрибутивна відстань. Однак такі методи не враховують семантичні відносини між словами. У цій статті описано альтернативний метод вимірювання семантичної відстані між текстами, який об’єднує інформацію про дистрибуцію та онтологічні знання у формалізмі мережевого трафіка. Спочатку кожен текст було представлено у вигляді колекції зважених за частотою концептів з онтології. Потім було використано модель мережевого трафіка, яка є ефективним способом експліцитного вимірювання зваженої за частотою онтологічної відстані між концептами у двох текстах. Шляхом тестування розробленого методу в різних завданнях обробки природної мови було з’ясовано, що він дає хороші результати в двох із трьох завдань. Для того щоб мати змогу пояснити різницю в результатах використання методу на трьох різних наборах даних, було розроблено нову міру семантичної когерентності, яка пролила світло на характеристики набору даних, який якнайкраще підходить для запропонованого методу.
Багато програм для обробки природної мови потребують класифікації текстів на основі семантичної відстані між ними (наскільки схожими або різними є ці тексти). Наприклад, порівнюючи текст нового документу з текстами документів на відомі теми, можна визначити тему нового тексту. Як правило, для визначення імпліцитної семантичної відстані між двома частинами тексту використовується дистрибутивна відстань. Однак такі методи не враховують семантичні відносини між словами. У цій статті описано альтернативний метод вимірювання семантичної відстані між текстами, який об’єднує інформацію про дистрибуцію та онтологічні знання у формалізмі мережевого трафіка. Спочатку кожен текст було представлено у вигляді колекції зважених за частотою концептів з онтології. Потім було використано модель мережевого трафіка, яка є ефективним способом експліцитного вимірювання зваженої за частотою онтологічної відстані між концептами у двох текстах. Шляхом тестування розробленого методу в різних завданнях обробки природної мови було з’ясовано, що він дає хороші результати в двох із трьох завдань. Для того щоб мати змогу пояснити різницю в результатах використання методу на трьох різних наборах даних, було розроблено нову міру семантичної когерентності, яка пролила світло на характеристики набору даних, який якнайкраще підходить для запропонованого методу.
Переклад А. Синящик
Baroni, M. Distributional Memory: A General Framework for Corpus-Based Semantics [Дистрибутивна пам’ять: загальна методика корпусно-базованих досліджень семантики ] / Marco Baroni, Alessandro Lenci // Computational linguistics. – 2010. – Vol. 36. – No. 4. – Pages 673–721. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00016#.WH4iSH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00016
Корпусно-базовані дослідження семантики зосереджені на розробці спеціальних моделей, які обробляють окремі завдання або набори тісно пов’язаних завдань як розрізнені задачі, для вирішення яких потрібно видобути з корпусу різноманітну інформацію про сполучуваність. Методика дистрибутивної пам’яті, яка є альтернативою цьому підходу «одне завдання, одна модель», раз і назавжди видобуває з корпусу інформацію про сполучуваність у формі набору зважених строк слово-зв’язка-слово, організованих у тензор третього рангу. Після цього за допомогою тензора генеруються різні матриці, у чиїх рядках і стовпчиках зручно розв’язувати різні семантичні завдання. Таким чином, одна й та сама інформація про сполучуваність може використовуватись у різних завданнях, таких як моделювання суджень про подібність слів, виявлення синонімів, категорізація концептів, прогнозування сполучуваності дієслів, розв’язання проблем аналогії, класифікація відношень між парами слів, визначення смислових структур за допомогою моделей або пар прикладів, прогнозування типових характеристик концептів і класифікація дієслів. Широкомасштабне емпіричне тестування в усіх цих предметних областях свідчить, що методика дистрибутивної пам’яті конкурує зі спеціалізованими алгоритмами для таких самих завдань, нещодавно описаними в літературі, і з кількома новітніми методами. Таким чином, показано, що метод дистрибутивної пам’яті є прийнятним, незважаючи на обмеження, накладені його багатоцільову природу.
Корпусно-базовані дослідження семантики зосереджені на розробці спеціальних моделей, які обробляють окремі завдання або набори тісно пов’язаних завдань як розрізнені задачі, для вирішення яких потрібно видобути з корпусу різноманітну інформацію про сполучуваність. Методика дистрибутивної пам’яті, яка є альтернативою цьому підходу «одне завдання, одна модель», раз і назавжди видобуває з корпусу інформацію про сполучуваність у формі набору зважених строк слово-зв’язка-слово, організованих у тензор третього рангу. Після цього за допомогою тензора генеруються різні матриці, у чиїх рядках і стовпчиках зручно розв’язувати різні семантичні завдання. Таким чином, одна й та сама інформація про сполучуваність може використовуватись у різних завданнях, таких як моделювання суджень про подібність слів, виявлення синонімів, категорізація концептів, прогнозування сполучуваності дієслів, розв’язання проблем аналогії, класифікація відношень між парами слів, визначення смислових структур за допомогою моделей або пар прикладів, прогнозування типових характеристик концептів і класифікація дієслів. Широкомасштабне емпіричне тестування в усіх цих предметних областях свідчить, що методика дистрибутивної пам’яті конкурує зі спеціалізованими алгоритмами для таких самих завдань, нещодавно описаними в літературі, і з кількома новітніми методами. Таким чином, показано, що метод дистрибутивної пам’яті є прийнятним, незважаючи на обмеження, накладені його багатоцільову природу.
Переклад В. Коломієць
Clarke, D. A Context-Theoretic Framework for Compositionality in Distributional Semantics [Контекстно-теоретична концепція композиційності в дистрибутивній семантиці] / Daoud Clarke // Computational linguistics. – 2012. – Vol. 38. – No. 1. – Pages 41–71. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00084#.WH4ivn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00084
Результатом математичної формалізації “значення у вигляді контексту” є нова, алгебраїчна теорія значення із двохлінійною і сполучувальною композицією. Ці характеристики притаманні іншим методам, описаним у літературі, зокрема тензорному твору, векторному складанню, точковому множенню і матричному множенню.
Логічне слідування може бути представлене векторно-решітковим упорядкуванням на основі посиленої форми дистрибутивної гіпотези, а рівень логічного слідування визначається у формі умовної вірогідності. Наша концепція дозволяє описати підходи до завдання розпізнавання логічного слідування у тексті, зокрема застосування сполучення підланцюгів, вірогідності лексичного логічного слідування і латентного розміщення Діріхле.
Результатом математичної формалізації “значення у вигляді контексту” є нова, алгебраїчна теорія значення із двохлінійною і сполучувальною композицією. Ці характеристики притаманні іншим методам, описаним у літературі, зокрема тензорному твору, векторному складанню, точковому множенню і матричному множенню.
Логічне слідування може бути представлене векторно-решітковим упорядкуванням на основі посиленої форми дистрибутивної гіпотези, а рівень логічного слідування визначається у формі умовної вірогідності. Наша концепція дозволяє описати підходи до завдання розпізнавання логічного слідування у тексті, зокрема застосування сполучення підланцюгів, вірогідності лексичного логічного слідування і латентного розміщення Діріхле.
Переклад В. Коломієць
Berant, J. Learning Entailment Relations by Global Graph Structure Optimization [Виявлення відношень логічного слідування шляхом оптимізації загальної структури графів] / Jonathan Berant, Ido Dagan, Jacob Goldberger // Computational linguistics. – 2012. – Vol. 38. – No. 1. – Pages 73–111. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00085#.WH4i9n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00085
Важливою складовою прикладного семантичного виводу є виявлення відношень логічного слідування між предикатами. У статті запропоновано універсальний алгоритм логічного виводу, який виявляє правила такого логічного слідування. Спочатку у статті визначено структуру графа над предикатами, у якому відношення логічного слідування представлені у вигляді орієнтованих ребер. Потім до графа застосовано універсальне обмеження транзитивності з метою визначення оптимального набору ребер, і завдання оптимізації сформульоване як цілочислове лінійне програмування. Алгоритм застосований в умовах, у яких за наявності цільового концепта алгоритм оперативно вивчає всі правила логічного слідування між предикатами, які зустрічаються разом із цим концептом. Результати свідчать, що у порівнянні з базовими алгоритмами запропонований універсальний алгоритм поліпшує результативність більше, ніж на 10%.
Важливою складовою прикладного семантичного виводу є виявлення відношень логічного слідування між предикатами. У статті запропоновано універсальний алгоритм логічного виводу, який виявляє правила такого логічного слідування. Спочатку у статті визначено структуру графа над предикатами, у якому відношення логічного слідування представлені у вигляді орієнтованих ребер. Потім до графа застосовано універсальне обмеження транзитивності з метою визначення оптимального набору ребер, і завдання оптимізації сформульоване як цілочислове лінійне програмування. Алгоритм застосований в умовах, у яких за наявності цільового концепта алгоритм оперативно вивчає всі правила логічного слідування між предикатами, які зустрічаються разом із цим концептом. Результати свідчать, що у порівнянні з базовими алгоритмами запропонований універсальний алгоритм поліпшує результативність більше, ніж на 10%.
Переклад В. Коломієць
Fürstenau, H. Semi-Supervised Semantic Role Labeling via Structural Alignment [Напівконтрольоване анотування семантичних ролей шляхом структурного вирівнювання] / Hagen Fürstenau, Mirella Lapata // Computational linguistics. – 2012. – Vol. 38. – No. 1. – Pages 135-171. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00087#.WH4jPn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00087
Необхідною передумовою розробки високоефективних систем анотування семантичних ролей є масштабні розмічені корпуси текстів. На жаль, створення таких корпусів дорого коштує, вони недостатньо великі і не можуть бути репрезентативними. Мета нашого дослідження полягає у полегшенні анотування, потрібного для створення ресурсів для розмітки семантичних ролей, шляхом навчання з частковим залученням учителя. Головна ідея нашого підходу полягає в тому, щоб знайти нові зразки для тренування класифікатора на основі їх схожості на розмічені вручну вихідні зразки. В основі лежить припущення, що фреймовий семантичний аналіз речень, однакових за лексичним матеріалом і синтаксичною структурою, співпадатиме. Знаходження однакових речень і присвоєння міток ролей формалізовані у вигляді проблеми вирівнювання графа, яка успішно вирішена за допомогою цілочислового лінійного програмування. Експериментальна перевірка анотування семантичних ролей свідчить, що автоматичне анотування за нашим методом є ефективнішим, ніж використання виключно розмічених вручну зразків.
Необхідною передумовою розробки високоефективних систем анотування семантичних ролей є масштабні розмічені корпуси текстів. На жаль, створення таких корпусів дорого коштує, вони недостатньо великі і не можуть бути репрезентативними. Мета нашого дослідження полягає у полегшенні анотування, потрібного для створення ресурсів для розмітки семантичних ролей, шляхом навчання з частковим залученням учителя. Головна ідея нашого підходу полягає в тому, щоб знайти нові зразки для тренування класифікатора на основі їх схожості на розмічені вручну вихідні зразки. В основі лежить припущення, що фреймовий семантичний аналіз речень, однакових за лексичним матеріалом і синтаксичною структурою, співпадатиме. Знаходження однакових речень і присвоєння міток ролей формалізовані у вигляді проблеми вирівнювання графа, яка успішно вирішена за допомогою цілочислового лінійного програмування. Експериментальна перевірка анотування семантичних ролей свідчить, що автоматичне анотування за нашим методом є ефективнішим, ніж використання виключно розмічених вручну зразків.
Переклад В. Коломієць
Velldal, E. Speculation and Negation: Rules, Rankers, and the Role of Syntax [Припущення і заперечення: правила, ранжувальники і роль синтаксису] / Erik Velldal, Lilja Øvrelid, Jonathon Read, Stephan Oepen // Computational linguistics. – 2012. – Vol. 38. – No. 2. – Pages 369-410. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00126#.WH4jj33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00126
У статті розглядається сукупність глибоких і поверхневих підходів до проблеми визначення діапазону припущень і заперечень у реченні, зокрема в літературі, присвяченій медико-біологічним дослідженням. Перша частина статті присвячена припущенням. Продемонструвавши спочатку як можна точно визначити маркери припущень за допомогою дуже простого класифікатора, що використовує тільки локальний лексичний контекст, ми аналізуємо два різних синтаксичних підходи до визначення діапазонів цих сигналів у реченні. У той час як один підхід використовує створені вручну правила, що оперують структурами залежностей, другий автоматично опановує диференційну функцію ранжування за допомогою вузлів у піддеревах. Ми здійснюємо глибокий аналіз помилок, обговорюємо різні лінгвістичні особливості проблеми, і показуємо, що хоча обидва підходи добре працюють самі по собі, застосовуючи їх разом, можна отримати навіть кращі результати, які є найкращими з опублікованих результатів конкурсного завдання конференції з машинного навчання і обробки природних мов (Computational Natural Language Learning, скор. CoNLL) CoNLL-2010. У останній частині статті описано, як можна використати нашу систему визначення діапазону припущень для визначення діапазону заперечень. За допомогою зовсім незначної модифікації вихідної структури система дозволяє отримати прекрасні результати також і у вирішенні цього завдання.
У статті розглядається сукупність глибоких і поверхневих підходів до проблеми визначення діапазону припущень і заперечень у реченні, зокрема в літературі, присвяченій медико-біологічним дослідженням. Перша частина статті присвячена припущенням. Продемонструвавши спочатку як можна точно визначити маркери припущень за допомогою дуже простого класифікатора, що використовує тільки локальний лексичний контекст, ми аналізуємо два різних синтаксичних підходи до визначення діапазонів цих сигналів у реченні. У той час як один підхід використовує створені вручну правила, що оперують структурами залежностей, другий автоматично опановує диференційну функцію ранжування за допомогою вузлів у піддеревах. Ми здійснюємо глибокий аналіз помилок, обговорюємо різні лінгвістичні особливості проблеми, і показуємо, що хоча обидва підходи добре працюють самі по собі, застосовуючи їх разом, можна отримати навіть кращі результати, які є найкращими з опублікованих результатів конкурсного завдання конференції з машинного навчання і обробки природних мов (Computational Natural Language Learning, скор. CoNLL) CoNLL-2010. У останній частині статті описано, як можна використати нашу систему визначення діапазону припущень для визначення діапазону заперечень. За допомогою зовсім незначної модифікації вихідної структури система дозволяє отримати прекрасні результати також і у вирішенні цього завдання.
Переклад М. Драчової
Gerber, M. Semantic Role Labeling of Implicit Arguments for Nominal Predicates [Маркування семантичних ролей імпліцитних аргументів номінативних присудків] / Matthew Gerber, Joyce Y. Chai // Computational linguistics. – 2012. – Vol. 38. – No. 4. – Pages 755–798. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00110#.WH6GsH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00110
Іменні присудки часто містять імпліцитні аргументи. Останні праці, присвячені маркуванню семантичних ролей, зосереджувалися на знаходженні аргументів у локальному контексті присудка, проте досліджень, присвячених власне прихованим аргументам, не проводилось. Для того щоб закрити цю прогалину, було здійснено ручну розмітку корпусу імпліцитних аргументів десяти присудків із NomBank. Проаналізувавши цей корпус, ми з’ясували, що імпліцитні аргументи складають 71% усіх наявних у NomBank аргументів. За допомогою корпусу здійснено навчання дискримінаційної моделі, здатної визначати імпліцитні аргументи зі значенням F1-міри 50%, що значно перевершує результати навченої базової моделі. У статті описано проведене дослідження, проаналізовано широкий спектр характеристик, важливих для виконання завдання і розглянуто майбутні напрямки роботи над визначенням імпліцитних аргументів.
Іменні присудки часто містять імпліцитні аргументи. Останні праці, присвячені маркуванню семантичних ролей, зосереджувалися на знаходженні аргументів у локальному контексті присудка, проте досліджень, присвячених власне прихованим аргументам, не проводилось. Для того щоб закрити цю прогалину, було здійснено ручну розмітку корпусу імпліцитних аргументів десяти присудків із NomBank. Проаналізувавши цей корпус, ми з’ясували, що імпліцитні аргументи складають 71% усіх наявних у NomBank аргументів. За допомогою корпусу здійснено навчання дискримінаційної моделі, здатної визначати імпліцитні аргументи зі значенням F1-міри 50%, що значно перевершує результати навченої базової моделі. У статті описано проведене дослідження, проаналізовано широкий спектр характеристик, важливих для виконання завдання і розглянуто майбутні напрямки роботи над визначенням імпліцитних аргументів.
Переклад В. Коломієць
Shutova, E. Statistical Metaphor Processing [Статистична обробка метафор] / Ekaterina Shutova, Simone Teufel, Anna Korhonen // Computational linguistics. – 2013. – Vol. 39. – No. 2. – Pages 301–353. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00124#.WH4kcn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00124
Оскільки метафори часто зустрічаються в мові, їх комп’ютерна обробка є невід’ємною частиною реальних систем семантичної обробки природної мови. Попередні підходи до моделювання метафори використовували спеціальні, закодовані вручну знання і застосовувались у обмежених предметних областях або до підгрупи явищ. У статті вперше описано інтегровану статистичну модель обробки метафор у довільних текстах без обмежень у предметній області. Запропонований метод спочатку виявляє метафоричні вирази у основному тексті, а потім перефразує їх, використовуючи їх буквальні парафрази. Така модель інтерпретації метафори шляхом перефразування тексту сумісна з іншими системами обробки природної мови, які можуть виграти від розв’язання метафори. Запропонований метод передбачає мінімальне залучення учителя, спирається на найсучасніші методи синтаксичного аналізу і видобування лексики (розподілену кластеризацію і виведення вибіркових преференцій) і демонструє високу точність.
Оскільки метафори часто зустрічаються в мові, їх комп’ютерна обробка є невід’ємною частиною реальних систем семантичної обробки природної мови. Попередні підходи до моделювання метафори використовували спеціальні, закодовані вручну знання і застосовувались у обмежених предметних областях або до підгрупи явищ. У статті вперше описано інтегровану статистичну модель обробки метафор у довільних текстах без обмежень у предметній області. Запропонований метод спочатку виявляє метафоричні вирази у основному тексті, а потім перефразує їх, використовуючи їх буквальні парафрази. Така модель інтерпретації метафори шляхом перефразування тексту сумісна з іншими системами обробки природної мови, які можуть виграти від розв’язання метафори. Запропонований метод передбачає мінімальне залучення учителя, спирається на найсучасніші методи синтаксичного аналізу і видобування лексики (розподілену кластеризацію і виведення вибіркових преференцій) і демонструє високу точність.
Переклад В. Коломієць
Liang, P. Learning Dependency-Based Compositional Semantics [Навчання композиційної семантики на основі залежностей] / Percy Liang, Michael I. Jordan, Dan Klein // Computational linguistics. – 2013. – Vol. 39. – No. 2. – Pages 389–446. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00127#.WH4k0n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00127#.WH4k_H3sSGA
Уявімо, що хочемо створити систему, яка відповідає на питання природною мовою шляхом репрезентації її семантики як логічної форми і обчислення відповіді з урахуванням структурованої бази даних фактів. Головною частиною такої системи є семантичний аналізатор, який пов’язує питання і логічні форми. Семантичні парсери звичайно тренуються на прикладах питань з помітами їх цільових логічних форм, але цей різновид маркування є дорогим.
Наша мета натомість полягає в тому, щоб навчити семантичний парсер за допомогою пар питання-відповідь, у яких логічна форма представлена як прихована змінна. Розроблено новий семантичний формализм, композиційна семантика на основі залежностей (англ. dependency-based compositional semantics, скор. DCS), і визначено логлінійну дистрибуцію логічних форм DCS.
Параметри моделі оцінюються за допомогою простої процедури, яка являє собою чергування променевого пошуку і числової оптимізації. На прикладі двох стандартних еталонних тестів показано, що наша система не поступається за точністю навіть найновішим системам, які потребують маркування логічних форм.
Уявімо, що хочемо створити систему, яка відповідає на питання природною мовою шляхом репрезентації її семантики як логічної форми і обчислення відповіді з урахуванням структурованої бази даних фактів. Головною частиною такої системи є семантичний аналізатор, який пов’язує питання і логічні форми. Семантичні парсери звичайно тренуються на прикладах питань з помітами їх цільових логічних форм, але цей різновид маркування є дорогим.
Наша мета натомість полягає в тому, щоб навчити семантичний парсер за допомогою пар питання-відповідь, у яких логічна форма представлена як прихована змінна. Розроблено новий семантичний формализм, композиційна семантика на основі залежностей (англ. dependency-based compositional semantics, скор. DCS), і визначено логлінійну дистрибуцію логічних форм DCS.
Параметри моделі оцінюються за допомогою простої процедури, яка являє собою чергування променевого пошуку і числової оптимізації. На прикладі двох стандартних еталонних тестів показано, що наша система не поступається за точністю навіть найновішим системам, які потребують маркування логічних форм.
Переклад В. Коломієць
Bhagat, R. What Is a Paraphrase? [Що таке перифраза?] / Rahul Bhagat, Eduard Hovy // Computational linguistics. – 2013. – Vol. 39. – No. 3. – Pages 463–472. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00166#.WIE6jX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00166
Перифрази – це речення або словосполучення, які виражають одне й те саме значення, використовуючи при цьому різні слова. Хоча згідно з визначенням, яке використовується у логіці, перифраза передбачає повну семантичну еквівалентність, у лінгвістиці допускається наближена еквівалентність, що значно збільшує кількість випадків “квазі-перифраз”. Проте наближену еквівалентність важко визначити. Через це складно дати характеристику явищу перифрази у лінгвістиці. У статті описано 25 операцій, які дозволяють виявити квазі-перифрази. Масштаб охоплення і точність цього списку перевірено емпіричним шляхом за допомогою ручного аналізу випадкових вибірок з двох наявних у вільному доступі корпусів перифраз. Наведено розподіл квазі-перифраз, які зустрічаються в англійському тексті.
Перифрази – це речення або словосполучення, які виражають одне й те саме значення, використовуючи при цьому різні слова. Хоча згідно з визначенням, яке використовується у логіці, перифраза передбачає повну семантичну еквівалентність, у лінгвістиці допускається наближена еквівалентність, що значно збільшує кількість випадків “квазі-перифраз”. Проте наближену еквівалентність важко визначити. Через це складно дати характеристику явищу перифрази у лінгвістиці. У статті описано 25 операцій, які дозволяють виявити квазі-перифрази. Масштаб охоплення і точність цього списку перевірено емпіричним шляхом за допомогою ручного аналізу випадкових вибірок з двох наявних у вільному доступі корпусів перифраз. Наведено розподіл квазі-перифраз, які зустрічаються в англійському тексті.
Переклад М. Погребної
Zapirain, B. Selectional Preferences for Semantic Role Classification [Обмеження сполучуваності для класифікації семантичних ролей] / Beñat Zapirain, Eneko Agirre, Lluís Màrquez, Mihai Surdeanu // Computational linguistics. – 2013. – Vol. 39. – No. 3 – Pages 631–663. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00145#.WH4lpH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00145
Стаття присвячена добре відомому невирішенному питанню у дослідженнях класифікації семантичних ролей: обмеженій ролі і рідкості лексичних характеристик. Проблему мінімізовано завдяки використанню моделей, які об’єднують автоматично виявлені обмеження сполучуваності. Досліджено декілька моделей на основі WordNet і обмежень сполучуваності за схожістю дистрибуції. Крім того показано, що завдання класифікації семантичних ролей краще моделювати за допомогою моделей обмеження сполучуваності на основі як дієслів, так і прийменників, а не самих дієслів. Експерименти з ізольованими моделями на основі обмежень сполучуваності продемонстрували, що вони перевершили базову лексичну модель на 20 пунктів F1 у предметній області і майже на 40 пунктів F2 поза предметною областю. Також показано, що сучасна система класифікації семантичних ролей з додаванням функцій на основі обмежень сполучуваності працює значно краще як у межах предметної області (зменьшення кількості помилок на 17%), так і поза межами предметної області (зменьшення кількості помилок на 13%). Нарешті, показано, що у комплексній системі маркування семантичних ролей було отримано невеликі, але статистично значимі покращення, незважаючи на те, що наша модифікована модель класифікації семантичних ролей задіює лише приблизно 4% кандидатів у аргументи. Апостеріорний аналіз помилок свідчить, що функції на основі обмежень сполучуваності допомагають переважно в ситуаціях, де синтаксична інформація є або невірною, або недостатньою для визначення точної ролі.
Стаття присвячена добре відомому невирішенному питанню у дослідженнях класифікації семантичних ролей: обмеженій ролі і рідкості лексичних характеристик. Проблему мінімізовано завдяки використанню моделей, які об’єднують автоматично виявлені обмеження сполучуваності. Досліджено декілька моделей на основі WordNet і обмежень сполучуваності за схожістю дистрибуції. Крім того показано, що завдання класифікації семантичних ролей краще моделювати за допомогою моделей обмеження сполучуваності на основі як дієслів, так і прийменників, а не самих дієслів. Експерименти з ізольованими моделями на основі обмежень сполучуваності продемонстрували, що вони перевершили базову лексичну модель на 20 пунктів F1 у предметній області і майже на 40 пунктів F2 поза предметною областю. Також показано, що сучасна система класифікації семантичних ролей з додаванням функцій на основі обмежень сполучуваності працює значно краще як у межах предметної області (зменьшення кількості помилок на 17%), так і поза межами предметної області (зменьшення кількості помилок на 13%). Нарешті, показано, що у комплексній системі маркування семантичних ролей було отримано невеликі, але статистично значимі покращення, незважаючи на те, що наша модифікована модель класифікації семантичних ролей задіює лише приблизно 4% кандидатів у аргументи. Апостеріорний аналіз помилок свідчить, що функції на основі обмежень сполучуваності допомагають переважно в ситуаціях, де синтаксична інформація є або невірною, або недостатньою для визначення точної ролі.
Переклад В. Коломієць
Das, D. Frame-Semantic Parsing [Фреймово-семантичний синтаксичний аналіз] / Dipanjan Das, Desai Chen, André F. T. Martins, Nathan Schneider, Noah A. Smith // Computational linguistics. – 2014. – Vol. 40. – No. 1. – Pр. 9–56. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00163#.WH6LzH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00163
Фреймова семантика є лінгвістичною теорією, яка отримала практичне втілення для англійської мови у лексиконі FrameNet. Ми вирішили проблему фреймово-семантичного аналізу, використавши двоступеневу статистичну модель, яка знаходить лексичні мішені (тобто значущі слова і словосполучення) у контекстах речень і прогнозує фреймово-семантичні структури. Якщо мішень у контексті знайдена, на першому етапі вона перетворюється у семантичний фрейм. Щоб удосконалити перетворення у фрейми мішеней, які не зустрілись під час навчання, у цій моделі використовуються приховані змінні і напівконтрольоване навчання. На другому етапі відшукуються локально виражені семантичні аргументи мішені. Під час виведення швидкий точний подвійний алгоритм розбиття вираховує відразу всі аргументи фрейму з метою дотримання декларативно заявлених лінгвістичних обмежень, генеруючи структури вищої якості, ніж ненавчені локальні предиктори. Обидва компоненти спеціалізовані та спеціально навчені на невеликому наборі анотованих фреймово-семантичних розборів. На тестовому наборі даних семінару SemEval 2007 даний підхід, разом із евристичним ідентифікатором мішеней, які можна представити у вигляді фреймів, значно перевершив найсучасніший попередній аналізатор. Крім того, ми повідомляємо результати експериментів на набагато більшому наборі даних FrameNet 1.5. Наш фреймово-семантичний аналізатор є програмним забезпеченням із відкритим вихідним кодом.
Фреймова семантика є лінгвістичною теорією, яка отримала практичне втілення для англійської мови у лексиконі FrameNet. Ми вирішили проблему фреймово-семантичного аналізу, використавши двоступеневу статистичну модель, яка знаходить лексичні мішені (тобто значущі слова і словосполучення) у контекстах речень і прогнозує фреймово-семантичні структури. Якщо мішень у контексті знайдена, на першому етапі вона перетворюється у семантичний фрейм. Щоб удосконалити перетворення у фрейми мішеней, які не зустрілись під час навчання, у цій моделі використовуються приховані змінні і напівконтрольоване навчання. На другому етапі відшукуються локально виражені семантичні аргументи мішені. Під час виведення швидкий точний подвійний алгоритм розбиття вираховує відразу всі аргументи фрейму з метою дотримання декларативно заявлених лінгвістичних обмежень, генеруючи структури вищої якості, ніж ненавчені локальні предиктори. Обидва компоненти спеціалізовані та спеціально навчені на невеликому наборі анотованих фреймово-семантичних розборів. На тестовому наборі даних семінару SemEval 2007 даний підхід, разом із евристичним ідентифікатором мішеней, які можна представити у вигляді фреймів, значно перевершив найсучасніший попередній аналізатор. Крім того, ми повідомляємо результати експериментів на набагато більшому наборі даних FrameNet 1.5. Наш фреймово-семантичний аналізатор є програмним забезпеченням із відкритим вихідним кодом.
Переклад О. Мартинюк, М. Погребної
Ó Séaghdha, D. Probabilistic Distributional Semantics with Latent Variable Models [Iмовірнісна дистрибутивна семантика та моделі латентних змінних] / Diarmuid Ó Séaghdha, Anna Korhonen // Computational linguistics. – 2014. – Vol. 40. – No. 3. – Pages 587–631. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00194#.WH4l733sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00194
У статті описано ймовірнісний підхід до виявлення переважної сполучуваності лінгвістичних предикатів та використання отриманих представлень у моделюванні впливу контексту на значення слів. Наш підхід базується на використанні моделей латентних змінних Баєса, створених під впливом і на основі добре відомої моделі тематичної структури документів під назвою Латентне розміщення Діріхле (англ. Latent Dirichlet Allocation, скор. LDA); при роботі з даними предикат-аргумент, тематичні моделі автоматично виводять семантичні класи аргументів і приписують кожному предикату дистрибуцію в цих класах. У статті розглянуто LDA і цілий ряд розширень цієї моделі та здійснено їх оцінку за допомогою різних завдань семантичного прогнозування. Показано, що наш підхід забезпечує сучасний рівень продуктивності. Загалом стверджується, що ймовірнісні методи забезпечують ефективні й гнучкі дослідження дистрибутивної семантики.
У статті описано ймовірнісний підхід до виявлення переважної сполучуваності лінгвістичних предикатів та використання отриманих представлень у моделюванні впливу контексту на значення слів. Наш підхід базується на використанні моделей латентних змінних Баєса, створених під впливом і на основі добре відомої моделі тематичної структури документів під назвою Латентне розміщення Діріхле (англ. Latent Dirichlet Allocation, скор. LDA); при роботі з даними предикат-аргумент, тематичні моделі автоматично виводять семантичні класи аргументів і приписують кожному предикату дистрибуцію в цих класах. У статті розглянуто LDA і цілий ряд розширень цієї моделі та здійснено їх оцінку за допомогою різних завдань семантичного прогнозування. Показано, що наш підхід забезпечує сучасний рівень продуктивності. Загалом стверджується, що ймовірнісні методи забезпечують ефективні й гнучкі дослідження дистрибутивної семантики.
Переклад Т. Павлущенко, М. Погребної
Lang, J. Similarity-Driven Semantic Role Induction via Graph Partitioning [Виведення семантичних ролей на основі схожості шляхом розбиття графа] / Joel Lang, Mirella Lapata // Computational linguistics. – 2014. – Vol. 40. – No. 3. – Pages 633–669. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00195#.WH4mPH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00195
Як у багатьох завданнях з обробки природної мови, основним методом розмітки семантичних ролей стали керовані даними моделі на основі навчання з учителем. Ці моделі забезпечують високу продуктивність при достатній кількості розмічених тренувальних даних. Створення цих даних дорого коштує і забирає багато часу, тому виникає питання: чи є навчання без учителя гідною альтернативою? Робоча гіпотеза цього дослідження полягає в тому, що семантичні ролі можна вивести індуктивним шляхом без учителя з корпусу синтаксично размічених речень, керуючись трьома лінгвістичними принципами: (1) аргументи в одній синтаксичній позиції (в межах конкретного зв’язку) мають однакові семантичні ролі, (2) аргументи в межах підрядного речення мають особливі семантичні ролі, і (3) кластери, які представляють одну семантичну роль, повинні мати більш або менш рівнозначні лексичні значення і дистрибуцію. У статті описано метод, в якому втілено ці принципи і формалізовано визначення семантичних ролей у вигляді проблеми разділення графа, в рамках якої окремі аргументи дієслова представлені як вершини графа, ребра якого виражають схожості між цими аргументами. Цей граф складається з багатьох рівнів ребер, кожен з яких виражає новий аспект схожості окремих аргументів, і для розбиття такого багаторівневого графа розроблено розширення стандартних алгоритмів кластеризації. Експерименти з англійською і німецькою мовами свідчать, що наш підхід дозволяє вивести індуктивним шляхом кластери семантичних ролей, які перевершують всі базові показники і можуть конкурувати з сучасними методами.
Як у багатьох завданнях з обробки природної мови, основним методом розмітки семантичних ролей стали керовані даними моделі на основі навчання з учителем. Ці моделі забезпечують високу продуктивність при достатній кількості розмічених тренувальних даних. Створення цих даних дорого коштує і забирає багато часу, тому виникає питання: чи є навчання без учителя гідною альтернативою? Робоча гіпотеза цього дослідження полягає в тому, що семантичні ролі можна вивести індуктивним шляхом без учителя з корпусу синтаксично размічених речень, керуючись трьома лінгвістичними принципами: (1) аргументи в одній синтаксичній позиції (в межах конкретного зв’язку) мають однакові семантичні ролі, (2) аргументи в межах підрядного речення мають особливі семантичні ролі, і (3) кластери, які представляють одну семантичну роль, повинні мати більш або менш рівнозначні лексичні значення і дистрибуцію. У статті описано метод, в якому втілено ці принципи і формалізовано визначення семантичних ролей у вигляді проблеми разділення графа, в рамках якої окремі аргументи дієслова представлені як вершини графа, ребра якого виражають схожості між цими аргументами. Цей граф складається з багатьох рівнів ребер, кожен з яких виражає новий аспект схожості окремих аргументів, і для розбиття такого багаторівневого графа розроблено розширення стандартних алгоритмів кластеризації. Експерименти з англійською і німецькою мовами свідчать, що наш підхід дозволяє вивести індуктивним шляхом кластери семантичних ролей, які перевершують всі базові показники і можуть конкурувати з сучасними методами.
Переклад М. Погребної, І. Снєгурова
Grefenstette, E. Concrete Models and Empirical Evaluations for the Categorical Compositional Distributional Model of Meaning [Конкретні моделі та емпіричні оцінки категоріальної композиційної дистрибутивної моделі значення] / Edward Grefenstette, Mehrnoosh Sadrzadeh // Computational linguistics. – 2015. – Vol. 41. – No. 1. – Pages 71–118. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00209 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00209
Для комп’ютерних лінгвістів моделювання композиційного значення речень із застосуванням емпіричних дистрибутивних методів завжди було завданням підвищеної складності. Категоріальна модель Кларка, Кyка і Садрзаде (Clark, D. et al., 2008) та Кyка, Садрзаде і Кларка (Coecke, B. et al., 2010) пропонує виконувати його шляхом об’єднання категоріальної граматики та дистрибутивної моделі значення. Вона враховує синтаксичні відношення під час виконання операцій компонування семантичних векторів. Але налаштування моделі є абстрактним. Відсутня оцінка моделі на основі емпіричних даних, вона не застосовувалась до жодних завдань обробки мови. Авторами створено конкретні моделі для вказаного налаштування шляхом створення алгоритмів для побудови тензорів та лінійних карт та підкріплення абстрактних параметрів емпіричними даними. Потім здійснено порівняння цих конкретних моделей з кількома експериментами, як відомими, так і новими, шляхом визначення, наскільки добре моделі узгоджуються з людськими судженнями при знаходженні парафрази. Результати дослідження показують, що в цих експериментах конкретне втілення застосування цієї загальної абстрактної моделі не поступається за результативністю іншим провідним моделям або перевершує їх.
Для комп’ютерних лінгвістів моделювання композиційного значення речень із застосуванням емпіричних дистрибутивних методів завжди було завданням підвищеної складності. Категоріальна модель Кларка, Кyка і Садрзаде (Clark, D. et al., 2008) та Кyка, Садрзаде і Кларка (Coecke, B. et al., 2010) пропонує виконувати його шляхом об’єднання категоріальної граматики та дистрибутивної моделі значення. Вона враховує синтаксичні відношення під час виконання операцій компонування семантичних векторів. Але налаштування моделі є абстрактним. Відсутня оцінка моделі на основі емпіричних даних, вона не застосовувалась до жодних завдань обробки мови. Авторами створено конкретні моделі для вказаного налаштування шляхом створення алгоритмів для побудови тензорів та лінійних карт та підкріплення абстрактних параметрів емпіричними даними. Потім здійснено порівняння цих конкретних моделей з кількома експериментами, як відомими, так і новими, шляхом визначення, наскільки добре моделі узгоджуються з людськими судженнями при знаходженні парафрази. Результати дослідження показують, що в цих експериментах конкретне втілення застосування цієї загальної абстрактної моделі не поступається за результативністю іншим провідним моделям або перевершує їх.
Переклад М. Дубка
Zanzotto F. When the Whole Is Not Greater Than the Combination of Its Parts: A “Decompositional” Look at Compositional Distributional Semantics [Коли ціле не більше, ніж комбінація його частин: "Декомпозиційний" погляд на композиційну дистрибутивну семантику] / Fabio Massimo Zanzotto, Lorenzo Ferrone, Marco Baroni // Computational linguistics. – 2015. – Vol. 41. – No. 1. – P. 165–173 – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00215 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00215
Дистрибутивна семантика поширилася на словосполучення та речення за допомогою операцій складання. У статті розглянуто, як ці операції впливають на вимірювання подібності, і виявлено, що рівняння подібності важливого класу методів компоновки можна розкласти на операції, які виконуються на складових частинах вхідних словосполучень. Таким чином встановлюється міцний зв’язок між цими моделями та ядрами згортки.
Дистрибутивна семантика поширилася на словосполучення та речення за допомогою операцій складання. У статті розглянуто, як ці операції впливають на вимірювання подібності, і виявлено, що рівняння подібності важливого класу методів компоновки можна розкласти на операції, які виконуються на складових частинах вхідних словосполучень. Таким чином встановлюється міцний зв’язок між цими моделями та ядрами згортки.
Переклад А. Шульги
Shutova, E. Design and Evaluation of Metaphor Processing Systems [Проектування та оцінювання систем опрацювання метафор] / Ekaterina Shutova // Computational linguistics. – 2015. – Vol. 41. – No. 4. – Pages 579–623. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00233 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00233
В опрацюванні природної мови (ОПМ) приділяють велику увагу методам розробки та оцінки систем, при цьому вони зазвичай оцінюються на основі стандартного завдання та загальних наборів даних. Це дозволяє здійснювати безпосереднє порівняння систем і сприяє розвитку галузі. Проте обчислення метафор значно більше фрагментоване, ніж аналогічні дослідження в інших галузях ОПМ і семантики. Протягом останніх років зріс інтерес до комп’ютерного моделювання метафор і з’явилося багат нових статистичних методів, що уможливлюють підвищення точності та надійності систем. Однак, відсутність визначення стандартного завдання, спільного набору даних та стратегії оцінювання ускладнює порівняння методів і тому перешкоджає спільному прогресу в цій галузі досліджень. Метою статті є огляд характеристик системи та стратегій оцінювання, які були запропоновані для завдання з опрацювання метафор, а також аналіз їх переваг та недоліків для визначення необхідних характеристик систем опрацювання метафор та набору вимог до їхньої оцінки.
В опрацюванні природної мови (ОПМ) приділяють велику увагу методам розробки та оцінки систем, при цьому вони зазвичай оцінюються на основі стандартного завдання та загальних наборів даних. Це дозволяє здійснювати безпосереднє порівняння систем і сприяє розвитку галузі. Проте обчислення метафор значно більше фрагментоване, ніж аналогічні дослідження в інших галузях ОПМ і семантики. Протягом останніх років зріс інтерес до комп’ютерного моделювання метафор і з’явилося багат нових статистичних методів, що уможливлюють підвищення точності та надійності систем. Однак, відсутність визначення стандартного завдання, спільного набору даних та стратегії оцінювання ускладнює порівняння методів і тому перешкоджає спільному прогресу в цій галузі досліджень. Метою статті є огляд характеристик системи та стратегій оцінювання, які були запропоновані для завдання з опрацювання метафор, а також аналіз їх переваг та недоліків для визначення необхідних характеристик систем опрацювання метафор та набору вимог до їхньої оцінки.
Переклад А. Шульги
Hill, F. SimLex-999: Evaluating Semantic Models With (Genuine) Similarity Estimation [SimLex-999: оцінювання семантичних методів шляхом оцінки (справжньої) схожості]/ Felix Hill, Roi Reichart, Anna Korhonen // Computational linguistics. – 2015. – Vol. 41. – No. 4. – Pages 665–695. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00237 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00237
У статті представлено SimLex-999, еталонний ресурс для оцінки дистрибутивних семантичних методів, який перевершує існуючі ресурси в кількох важливих аспектах. По-перше, на відміну від золотих стандартів, таких як WordSim-353 та MEN, він експліцитно вираховує схожість, а не асоціативність чи пов'язаність, отже пари об'єктів, які асоціюються, але фактично не є схожими (Фрейд, психологія), мають низький рейтинг. Показано, що завдяки зосередженню на схожості, SimLex-999 стимулює розробку методів з різним, і, можливо, ширшим, спектром застосувань, ніж у методів, що відображають концептуальну асоціативність. По-друге, SimLex-999 містить низку конкретних і абстрактних пар прикметників, іменників та дієслів, а також незалежний рейтинг конкретності та (вільної) сили асоціативності для кожної пари. Ця різноманітність уможливлює детальний аналіз ефективності методів з концептами різних типів і, як наслідок, дає краще уявлення про те, яким чином можна вдосконалити методи. Крім того, на відміну від існуючих еталонних оцінювань, чию межу узгодженості між розмітниками автоматичні методи вже досягли або перевищили, сучасні методи демонструють значно гірші результати з SimLex-999. Отже, SimLex-999 має великі резерви для кількісного вираження майбутніх вдосконалень дистрибутивних семантичних методів, що спрямовуватиме розвиток наступного покоління методів на основі репрезентаційного машинного навчання.
У статті представлено SimLex-999, еталонний ресурс для оцінки дистрибутивних семантичних методів, який перевершує існуючі ресурси в кількох важливих аспектах. По-перше, на відміну від золотих стандартів, таких як WordSim-353 та MEN, він експліцитно вираховує схожість, а не асоціативність чи пов'язаність, отже пари об'єктів, які асоціюються, але фактично не є схожими (Фрейд, психологія), мають низький рейтинг. Показано, що завдяки зосередженню на схожості, SimLex-999 стимулює розробку методів з різним, і, можливо, ширшим, спектром застосувань, ніж у методів, що відображають концептуальну асоціативність. По-друге, SimLex-999 містить низку конкретних і абстрактних пар прикметників, іменників та дієслів, а також незалежний рейтинг конкретності та (вільної) сили асоціативності для кожної пари. Ця різноманітність уможливлює детальний аналіз ефективності методів з концептами різних типів і, як наслідок, дає краще уявлення про те, яким чином можна вдосконалити методи. Крім того, на відміну від існуючих еталонних оцінювань, чию межу узгодженості між розмітниками автоматичні методи вже досягли або перевищили, сучасні методи демонструють значно гірші результати з SimLex-999. Отже, SimLex-999 має великі резерви для кількісного вираження майбутніх вдосконалень дистрибутивних семантичних методів, що спрямовуватиме розвиток наступного покоління методів на основі репрезентаційного машинного навчання.
Переклад М. Дубка
Boleda, G. Formal Distributional Semantics: Introduction to the Special Issue [Формальна дистрибутивна семантика: передмова до спеціального випуску] / Gemma Boleda, Aurélie Herbelot // Computational linguistics. – 2016. – Vol. 42. – No. 4. – Pages 619–635. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00261 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00261
Формальна семантика і дистрибутивна семантика – це два дуже важливі семантичні методи в комп'ютерній лінгвістиці. Формальна семантика базується на символьній традиції та зосереджена навколо визначених шляхом умовиводів властивостей мови. Дистрибутивна семантика ґрунтується на статистичних та фактичних даних і зосереджується на аспектах значення, пов’язаних з описовим змістом. Ці два методи доповнюють сильні сторони одне одного, що і викликало зацікавленість у їх об’єднанні в один комплексний семантичний метод − «формальну дистрибутивну семантику». Проте, через принципову відмінність двох парадигм, створення інтеграційного методу пов’язане із значними теоретичними і технічними труднощами. Цей випуск журналу Computational Linguistics висвітлює сучасний стан справ у формальній дистрибутивній семантиці; ця вступна стаття пояснює, з якою метою її було створено і підсумовує значимість попередніх публікацій з теми, забезпечуючи необхідну основу для опублікованих у випуску статей.
Формальна семантика і дистрибутивна семантика – це два дуже важливі семантичні методи в комп'ютерній лінгвістиці. Формальна семантика базується на символьній традиції та зосереджена навколо визначених шляхом умовиводів властивостей мови. Дистрибутивна семантика ґрунтується на статистичних та фактичних даних і зосереджується на аспектах значення, пов’язаних з описовим змістом. Ці два методи доповнюють сильні сторони одне одного, що і викликало зацікавленість у їх об’єднанні в один комплексний семантичний метод − «формальну дистрибутивну семантику». Проте, через принципову відмінність двох парадигм, створення інтеграційного методу пов’язане із значними теоретичними і технічними труднощами. Цей випуск журналу Computational Linguistics висвітлює сучасний стан справ у формальній дистрибутивній семантиці; ця вступна стаття пояснює, з якою метою її було створено і підсумовує значимість попередніх публікацій з теми, забезпечуючи необхідну основу для опублікованих у випуску статей.
Переклад А. Шульги
Kruszewski G. There Is No Logical Negation Here, But There Are Alternatives: Modeling Conversational Negation with Distributional Semantics [Тут немає логічного заперечення, але є альтернативи: моделювання усного заперечення за допомогою дистрибутивної семантики] / Germán Kruszewski, Denis Paperno, Raffaella Bernardi, Marco Baroni // Computational linguistics. – 2016. – Vol. 42. – No. 4. – Pages 637–660. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00262 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00262
Логічне заперечення є складним завданням для дистрибутивної семантики, оскільки предикати та їхні заперечення, як правило, зустрічаються в дуже подібних контекстах, отже, їх дистрибутивні вектори дуже схожі. Дійсно, навіть не зрозуміло, які саме властивості повинен мати дистрибутивний вектор, «який заперечується». Проте, коли лінгвістичне заперечення розглядається в його фактичному вживанні в дискурсі, воно часто виконує роль, яка дуже відрізняється від простого логічного заперечення. Якщо посеред розмови хтось заявляє, що «це не собака», заперечення явно передбачає обмежений набір альтернативних предикатів, які можуть бути вірними стосовно обговорюваного об’єкта. Зокрема, прийнятними альтернативами є інші представники родини псових і ссавці середнього розміру; птахи менш імовірні; хмарочоси та інші великі будівлі є практично неможливими. Усне заперечення діє як ступінчаста функція подібності, того роду, який можна легко виявити за допомогою дистрибутивної семантики. У цій статті представлено великий набір альтернативних рейтингів правдоподібності для усних заперечень іменних предикатів, а також показано, що проста подібність у дистрибутивному семантичному просторі забезпечує ідеальну відповідність суб’єктам даних. З одного боку, це заповнює прогалину в публікаціях, присвячених усному запереченню, і пропонуює дистрибутивну семантику в якості правильного інструменту для прямих передбачень потенційних альтернатив заперечуваним предикатам. З другого боку, при розгляді в ширшому прагматичному аспекті результати показують, що заперечення є зовсім не проблемою, а ідеальною областю для застосування методів дистрибутивної семантики.
Логічне заперечення є складним завданням для дистрибутивної семантики, оскільки предикати та їхні заперечення, як правило, зустрічаються в дуже подібних контекстах, отже, їх дистрибутивні вектори дуже схожі. Дійсно, навіть не зрозуміло, які саме властивості повинен мати дистрибутивний вектор, «який заперечується». Проте, коли лінгвістичне заперечення розглядається в його фактичному вживанні в дискурсі, воно часто виконує роль, яка дуже відрізняється від простого логічного заперечення. Якщо посеред розмови хтось заявляє, що «це не собака», заперечення явно передбачає обмежений набір альтернативних предикатів, які можуть бути вірними стосовно обговорюваного об’єкта. Зокрема, прийнятними альтернативами є інші представники родини псових і ссавці середнього розміру; птахи менш імовірні; хмарочоси та інші великі будівлі є практично неможливими. Усне заперечення діє як ступінчаста функція подібності, того роду, який можна легко виявити за допомогою дистрибутивної семантики. У цій статті представлено великий набір альтернативних рейтингів правдоподібності для усних заперечень іменних предикатів, а також показано, що проста подібність у дистрибутивному семантичному просторі забезпечує ідеальну відповідність суб’єктам даних. З одного боку, це заповнює прогалину в публікаціях, присвячених усному запереченню, і пропонуює дистрибутивну семантику в якості правильного інструменту для прямих передбачень потенційних альтернатив заперечуваним предикатам. З другого боку, при розгляді в ширшому прагматичному аспекті результати показують, що заперечення є зовсім не проблемою, а ідеальною областю для застосування методів дистрибутивної семантики.
Переклад А. Шульги
Rimell, L. RELPRON: A Relative Clause Evaluation Data Set for Compositional Distributional Semantics [Набір підрядних означальних речень для оцінки композиційної дистрибутивної семантики RELPRON] / Laura Rimell, Jean Maillard, Tamara Polajnar, Stephen Clark // Computational linguistics. – 2016. – Vol. 42. – No. 4. – Pages 661–701. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00263 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00263
У статті представлено RELPRON, великий набір підрядних означальних речень із сполучними словами в ролі підмета і додатка, призначений для оцінювання методів композиційної дистрибутивної семантики. RELPRON орієнтований на серединний рівень граматичної складності між парами повнозначних слів і повними реченнями. Завдання передбачає співставлення термінів, таких як "мудрість", з репрезентативними властивостями, таким як "якість, набута завдяки досвіду". Унікальною особливістю RELPRON є те, що набір складається з перевірених властивостей, які не обов’язково вживаються у формі підрядного означального речення у вихідному корпусі. У статті також представлено деякі початкові експерименти на матеріалі RELPRON, в яких використано різноманітні композиційні методи, зокрема прості, такі як метод простих мінімальних основ для порівняння, метод арифметичних операторів на векторах, і більш складні методи, в яких слова в ролі аргументів представлено у вигляді тензорів. Останні методи базуються на детально описаному категоріальному підході. Отримані результати свідчать, що додавання векторів складно перевершити, що відповідає опублікованим даним, але використання категоріального підходу, який базується на моделі практичної лексичної функції, може зрівнятися по ефективності з додаванням векторів. Стаття завершується детальним аналізом RELPRON, який показує, як відрізняються результати для підрядних означальних речень із сполучними словами в ролі підметів та додатків, для різних іменників у ролі головних слів, і як вказані методи виконують проміжні завдання, необхідні для розуміння семантики підрядних означальних речень, а також забезпечення якісного аналізу, що висвітлює деякі з найбільш поширених помилок. Очікується, що представлені в статті конкурентоспроможні результати, в яких найкращі системи в середньому правильно ранжують кожну другу властивість певного терміна, сприятимуть появі нових підходів до завдання ранжування RELPRON та інших завдань на основі цікавих з лінгвістичної точки зору конструкцій.
У статті представлено RELPRON, великий набір підрядних означальних речень із сполучними словами в ролі підмета і додатка, призначений для оцінювання методів композиційної дистрибутивної семантики. RELPRON орієнтований на серединний рівень граматичної складності між парами повнозначних слів і повними реченнями. Завдання передбачає співставлення термінів, таких як "мудрість", з репрезентативними властивостями, таким як "якість, набута завдяки досвіду". Унікальною особливістю RELPRON є те, що набір складається з перевірених властивостей, які не обов’язково вживаються у формі підрядного означального речення у вихідному корпусі. У статті також представлено деякі початкові експерименти на матеріалі RELPRON, в яких використано різноманітні композиційні методи, зокрема прості, такі як метод простих мінімальних основ для порівняння, метод арифметичних операторів на векторах, і більш складні методи, в яких слова в ролі аргументів представлено у вигляді тензорів. Останні методи базуються на детально описаному категоріальному підході. Отримані результати свідчать, що додавання векторів складно перевершити, що відповідає опублікованим даним, але використання категоріального підходу, який базується на моделі практичної лексичної функції, може зрівнятися по ефективності з додаванням векторів. Стаття завершується детальним аналізом RELPRON, який показує, як відрізняються результати для підрядних означальних речень із сполучними словами в ролі підметів та додатків, для різних іменників у ролі головних слів, і як вказані методи виконують проміжні завдання, необхідні для розуміння семантики підрядних означальних речень, а також забезпечення якісного аналізу, що висвітлює деякі з найбільш поширених помилок. Очікується, що представлені в статті конкурентоспроможні результати, в яких найкращі системи в середньому правильно ранжують кожну другу властивість певного терміна, сприятимуть появі нових підходів до завдання ранжування RELPRON та інших завдань на основі цікавих з лінгвістичної точки зору конструкцій.
Переклад М. Дубка
Asher, N. Integrating Type Theory and Distributional Semantics: A Case Study on Adjective–Noun Compositions [Інтегрування теорії типів і дистрибутивної семантики: дослідження прикладів сполучень прикметник-іменник] / Nicholas Asher, Tim Van de Cruys, Antoine Bride, Márta Abrusán // Computational linguistics. – 2016. – Vol. 42. – No. 4. – Pages 703–725. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00264 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00264
У статті розглянуто інтеграцію формального семантичного підходу до лексичного значення і підходу на основі дистрибутивних методів. Спочатку коротко викладено формальну семантичну теорію, яка поєднує переваги як формального, так і дистрибутивного підходів. Після цього розроблено алгебраїчну інтерпретацію цієї формальної семантичної теорії і показано, як принаймні два види дистрибутивних моделей конкретизують цю інтерпретацію. Зосередивши увагу на сполученні прикметник-іменник, здійснено порівняння декількох дистрибутивних моделей з точки зору семантичної інформації, яка могла б знадобитися для формальної семантичної теорії, і показано, як знову використати інформацію, надану дистрибутивними моделями, у формальному семантичному підході.
У статті розглянуто інтеграцію формального семантичного підходу до лексичного значення і підходу на основі дистрибутивних методів. Спочатку коротко викладено формальну семантичну теорію, яка поєднує переваги як формального, так і дистрибутивного підходів. Після цього розроблено алгебраїчну інтерпретацію цієї формальної семантичної теорії і показано, як принаймні два види дистрибутивних моделей конкретизують цю інтерпретацію. Зосередивши увагу на сполученні прикметник-іменник, здійснено порівняння декількох дистрибутивних моделей з точки зору семантичної інформації, яка могла б знадобитися для формальної семантичної теорії, і показано, як знову використати інформацію, надану дистрибутивними моделями, у формальному семантичному підході.
У статті розглянуто інтеграцію формального семантичного підходу до лексичного значення і підходу на основі дистрибутивних методів. Спочатку коротко викладено формальну семантичну теорію, яка поєднує переваги як формального, так і дистрибутивного підходів. Після цього розроблено алгебраїчну інтерпретацію цієї формальної семантичної теорії і показано, як принаймні два види дистрибутивних моделей конкретизують цю інтерпретацію. Зосередивши увагу на сполученні прикметник-іменник, здійснено порівняння декількох дистрибутивних моделей з точки зору семантичної інформації, яка могла б знадобитися для формальної семантичної теорії, і показано, як знову використати інформацію, надану дистрибутивними моделями, у формальному семантичному підході.
У статті розглянуто інтеграцію формального семантичного підходу до лексичного значення і підходу на основі дистрибутивних методів. Спочатку коротко викладено формальну семантичну теорію, яка поєднує переваги як формального, так і дистрибутивного підходів. Після цього розроблено алгебраїчну інтерпретацію цієї формальної семантичної теорії і показано, як принаймні два види дистрибутивних моделей конкретизують цю інтерпретацію. Зосередивши увагу на сполученні прикметник-іменник, здійснено порівняння декількох дистрибутивних моделей з точки зору семантичної інформації, яка могла б знадобитися для формальної семантичної теорії, і показано, як знову використати інформацію, надану дистрибутивними моделями, у формальному семантичному підході.
Переклад М. Дубка
Weir, D. Aligning Packed Dependency Trees: A Theory of Composition for Distributional Semantics [Вирівнювання упакованих дерев залежностей: теорія композиції для дистрибутивної семантики] / David Weir, Julie Weeds, Jeremy Reffin, and Thomas Kober // Computational linguistics. – 2016. – Vol. 42. – No. 4. – Pages 727–761. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00265 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00265
У статті представлено новий підхід до композиційної дистрибутивної семантики, в якому дистрибутивні оточення лексем виражаються у формі вивірених упакованих дерев залежностей. Показано, що ці структури можуть розпізнати повне оточення лексеми в реченні і є стандартною базою для об’єднання інформації про дистрибуцію таким чином, щоб забезпечити як одночасне зняття лексичної неоднозначності, так і узагальнення.
У статті представлено новий підхід до композиційної дистрибутивної семантики, в якому дистрибутивні оточення лексем виражаються у формі вивірених упакованих дерев залежностей. Показано, що ці структури можуть розпізнати повне оточення лексеми в реченні і є стандартною базою для об’єднання інформації про дистрибуцію таким чином, щоб забезпечити як одночасне зняття лексичної неоднозначності, так і узагальнення.
Переклад А. Шульги
Beltagy, I. Representing Meaning with a Combination of Logical and Distributional Models [Представлення значення за допомогою поєднання логічних i дистрибутивних моделей] / I. Beltagy, Stephen Roller, Pengxiang Cheng, Katrin Erk, Raymond J. Mooney // Computational linguistics. – 2016. – Vol. 42. – No. 4. – Pages 763–808. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00266 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00266
Завдання опрацювання природної мови відрізняються необхідною для них семантичною інформацією, і на цей час жодне семантичне представлення не відповідає всім вимогам. Логічні представлення характеризують структуру речення, але не відображають градуйований аспект значення. Дистрибутивні моделі дають градуйовані оцінки подібності слів і фраз, але не відображають структуру речень так само детально, як логічні підходи. Тому стверджується, що ці два підходи є взаємодоповняльними.
У цій розвідці застосовано гібридний підхід, який поєднує логічну та дистрибутивну семантику, використовуючи ймовірнісну логіку, а саме логічні мережі Маркова (ЛММ). У статті розглянуто три компоненти прикладної системи: 1) метою логічного представлення є представлення вхідних задач за допомогою ймовірнісної логіки; 2) укладання бази знань створює зважені правила логічного виводу шляхом інтеграції дистрибутивної інформації та інших джерел; 3) ймовірнісний логічний вивід передбачає ефективне вирішення отриманих задач логічного виводу ЛММ. Для оцінювання запропонованого підходу використано завдання видобування з тексту імпліцитної інформації, яке уможливлює використання переваг як логічних, так і дистрибутивних представлень. Зокрема, описано базу даних SICK, завдяки якій вдалося отримати відмінні результати. Також представлено цінний ресурс для оцінювання систем видобування імпліцитної інформації на лексичному рівні – набір даних для видобування імпліцитної інформації на лексичному рівні, який складається з 10 213 правил, видобутих з бази даних SICK.
Завдання опрацювання природної мови відрізняються необхідною для них семантичною інформацією, і на цей час жодне семантичне представлення не відповідає всім вимогам. Логічні представлення характеризують структуру речення, але не відображають градуйований аспект значення. Дистрибутивні моделі дають градуйовані оцінки подібності слів і фраз, але не відображають структуру речень так само детально, як логічні підходи. Тому стверджується, що ці два підходи є взаємодоповняльними.
У цій розвідці застосовано гібридний підхід, який поєднує логічну та дистрибутивну семантику, використовуючи ймовірнісну логіку, а саме логічні мережі Маркова (ЛММ). У статті розглянуто три компоненти прикладної системи: 1) метою логічного представлення є представлення вхідних задач за допомогою ймовірнісної логіки; 2) укладання бази знань створює зважені правила логічного виводу шляхом інтеграції дистрибутивної інформації та інших джерел; 3) ймовірнісний логічний вивід передбачає ефективне вирішення отриманих задач логічного виводу ЛММ. Для оцінювання запропонованого підходу використано завдання видобування з тексту імпліцитної інформації, яке уможливлює використання переваг як логічних, так і дистрибутивних представлень. Зокрема, описано базу даних SICK, завдяки якій вдалося отримати відмінні результати. Також представлено цінний ресурс для оцінювання систем видобування імпліцитної інформації на лексичному рівні – набір даних для видобування імпліцитної інформації на лексичному рівні, який складається з 10 213 правил, видобутих з бази даних SICK.
Переклад М. Дубка
Shutova, E. Multilingual Metaphor Processing: Experiments with Semi-Supervised and Unsupervised Learning [Багатомовне опрацювання метафор: експерименти з навчанням з мінімальним залученням учителя і без учителя] / Ekaterina Shutova, Lin Sun, Elkin Darío Gutiérrez, Patricia Lichtenstein, Srini Narayanan // Computational linguistics. – 2017. – Vol. 43. – No. 1. – Pages 71–123. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00275 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00275
Метафора, яка часто зустрічається у мові та спілкуванні, є серйозною проблемою для програм опрацювання природної мови. Традиційно обчислення метафор базувалося на застосуванні виконаної вручну розмітки, що ускладнювало розширення систем. В останні роки спостерігалося застосування статистичних підходів до опрацювання метафор. Проте ці підходи часто потребують масштабного ручного маркування і оцінюються здебільшого в обмеженій царині. У цьому дослідженні, навпаки, застосовано методи з незначним залученням учителя і без учителя – з обмеженим маркуванням або без нього – для визначення загальних методів обробки метафори на основі дистрибутивних властивостей понять. Досліджено різні рівні та види методів з учителем (навчання на основі лінгвістичних прикладів, навчання на основі заданого набору метафоричних представлень, а також навчання без маркування) з плоскими та ієрархічними, необмеженими та обмеженими налаштуваннями кластеризації. За мету поставлено визначення оптимального типу контролю для алгоритму навчання, який виявляє в тексті шаблони метафоричної асоціації. Для того, щоб дослідити розширюваність та адаптивність запропонованих методів, їх було застосовано до даних на трьох мовах з різних мовних груп – англійської, іспанської та російської. Було отримано високі результати з навчанням практично без учителя. Нарешті, показано, що статистичні методи можуть полегшити та розширити порівняльні дослідження метафори.
Метафора, яка часто зустрічається у мові та спілкуванні, є серйозною проблемою для програм опрацювання природної мови. Традиційно обчислення метафор базувалося на застосуванні виконаної вручну розмітки, що ускладнювало розширення систем. В останні роки спостерігалося застосування статистичних підходів до опрацювання метафор. Проте ці підходи часто потребують масштабного ручного маркування і оцінюються здебільшого в обмеженій царині. У цьому дослідженні, навпаки, застосовано методи з незначним залученням учителя і без учителя – з обмеженим маркуванням або без нього – для визначення загальних методів обробки метафори на основі дистрибутивних властивостей понять. Досліджено різні рівні та види методів з учителем (навчання на основі лінгвістичних прикладів, навчання на основі заданого набору метафоричних представлень, а також навчання без маркування) з плоскими та ієрархічними, необмеженими та обмеженими налаштуваннями кластеризації. За мету поставлено визначення оптимального типу контролю для алгоритму навчання, який виявляє в тексті шаблони метафоричної асоціації. Для того, щоб дослідити розширюваність та адаптивність запропонованих методів, їх було застосовано до даних на трьох мовах з різних мовних груп – англійської, іспанської та російської. Було отримано високі результати з навчанням практично без учителя. Нарешті, показано, що статистичні методи можуть полегшити та розширити порівняльні дослідження метафори.
Переклад М. Дубка
Rothe S. AutoExtend: Combining Word Embeddings with Semantic Resources [AutoExtend: поєднання векторів представлення слів з семантичними ресурсами] / Sascha Rothe, Hinrich Schütze // Computational linguistics. – 2017. – Vol. 43. – No. 3. – Pages 593–617. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00294 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00294
У статті представлено систему AutoExtend, яка об’єднує вектори представлення слів і семантичні ресурси шляхом автоматичної побудови векторів представлення несловесних об’єктів, таких як синсети та логічні категорії, і автоматичної побудови векторів представлення слів, які включають семантичну інформацію з ресурсу. Цей метод ґрунтується на кодуванні та декодуванні векторів представлення слів і характеризується гнучкістю, оскільки може опрацьовувати як вхідну інформацію будь-які вектори представлення слів і не потребує додаткового тренувального корпусу. Вихідні вектори представлення знаходяться в одному і тому ж векторному просторі, що і вхідні. Розріджена формалізація тензора гарантує ефективність та придатність до запаралелювання. В якості семантичних ресурсів у дослідженні використано WordNet, GermaNet і Freebase. AutoExtend відповідає сучасним вимогам у виконанні завдань із визначення схожості слів у контексті і зняття лексичної багатозначності.
У статті представлено систему AutoExtend, яка об’єднує вектори представлення слів і семантичні ресурси шляхом автоматичної побудови векторів представлення несловесних об’єктів, таких як синсети та логічні категорії, і автоматичної побудови векторів представлення слів, які включають семантичну інформацію з ресурсу. Цей метод ґрунтується на кодуванні та декодуванні векторів представлення слів і характеризується гнучкістю, оскільки може опрацьовувати як вхідну інформацію будь-які вектори представлення слів і не потребує додаткового тренувального корпусу. Вихідні вектори представлення знаходяться в одному і тому ж векторному просторі, що і вхідні. Розріджена формалізація тензора гарантує ефективність та придатність до запаралелювання. В якості семантичних ресурсів у дослідженні використано WordNet, GermaNet і Freebase. AutoExtend відповідає сучасним вимогам у виконанні завдань із визначення схожості слів у контексті і зняття лексичної багатозначності.
Переклад А. Шульги
Vulić, I. HyperLex: A Large-Scale Evaluation of Graded Lexical Entailment [HyperLex: великомасштабне оцінювання градуйованого лексичного логічного слідування] / Ivan Vulić, Daniela Gerz, Douwe Kiela, Felix Hill, Anna Korhonen // Computational linguistics. – 2017. – Vol. 43. – No. 4. – Pages 781–835. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00301 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00301
У статті представлено HyperLex – набір даних і аналітичний ресурс, який кількісно визначає ступінь належності до семантичної категорії, тобто тип відношень, також відомий як гіперо-гіпонімія або відношення лексичного логічного слідування (ЛЛС), між 2616 парами понять. Дослідження в галузі когнітивної психології визначили, що типовість і належність до категорії/класу обчислюються в семантичній пам'яті людини як градуальне, а не бінарне відношення. Проте в більшості досліджень в галузі опрацювання природної мови та в існуючих великомасштабних інвентарях належності до понятійних категорій (WordNet, DBPedia тощо) категоріальна приналежність та ЛЛС вважаються бінарними. Для вирішення цієї проблеми на платформі краудсорсингу сотням носіїв англійської мови було запропоновано визначити типовість та міцність категоріальної приналежності серед різноманітних пар понять. Отримані результати підтверджують, що категоріальна приналежність та ЛЛС дійсно є більш градуальними, ніж бінарними. Також здійснено порівняння експертних оцінок з прогнозами автоматичних систем, яке виявило значні розбіжності між результатами експертної оцінки і сучасними моделями дистрибуції і навчання представленням на основі ЛЛС, а також суттєві відмінності між самими моделями. Обговорено шляхи вдосконалення семантичних моделей для подолання цієї невідповідності та вказано майбутні області застосування вдосконалених градуйованих систем ЛЛС.
У статті представлено HyperLex – набір даних і аналітичний ресурс, який кількісно визначає ступінь належності до семантичної категорії, тобто тип відношень, також відомий як гіперо-гіпонімія або відношення лексичного логічного слідування (ЛЛС), між 2616 парами понять. Дослідження в галузі когнітивної психології визначили, що типовість і належність до категорії/класу обчислюються в семантичній пам'яті людини як градуальне, а не бінарне відношення. Проте в більшості досліджень в галузі опрацювання природної мови та в існуючих великомасштабних інвентарях належності до понятійних категорій (WordNet, DBPedia тощо) категоріальна приналежність та ЛЛС вважаються бінарними. Для вирішення цієї проблеми на платформі краудсорсингу сотням носіїв англійської мови було запропоновано визначити типовість та міцність категоріальної приналежності серед різноманітних пар понять. Отримані результати підтверджують, що категоріальна приналежність та ЛЛС дійсно є більш градуальними, ніж бінарними. Також здійснено порівняння експертних оцінок з прогнозами автоматичних систем, яке виявило значні розбіжності між результатами експертної оцінки і сучасними моделями дистрибуції і навчання представленням на основі ЛЛС, а також суттєві відмінності між самими моделями. Обговорено шляхи вдосконалення семантичних моделей для подолання цієї невідповідності та вказано майбутні області застосування вдосконалених градуйованих систем ЛЛС.
Переклад М. Дубка