Stevenson, M. The Interaction of Knowledge Sources in Word Sense Disambiguation [Взаємодія баз даних у знятті лексичної неоднозначності] / Mark Stevenson, Yorick Wilks // Computational linguistics. – 2001. – Vol. 27. – No. 3. – Pages 321–349. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101317066104#.WIEg1H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101317066104
Ефективність вирішення проблеми лексичної неоднозначності (Word sense disambiguation, WSD) можна підвищити, перейнявши практику об’єднання різних баз даних з досліджень штучного інтелекту. Для перевірки цієї гіпотези потрібно визначити, які лексичні бази даних є найкориснішими, і з’ясувати, чи дозволяє їх об’єднання отримати кращі результати. У статті представлено систему семантичної розмітки, яка використовує декілька баз даних. Оцінка системи за допомогою нашого корпусу виявила точність понад 94%.
Наша система не обмежується обробкою обмеженого списку слів, а намагається зняти омонімію усіх повнозначних слів у тексті. Ми уважаємо, що такий підхід є більш підходящим для створення практичних систем.
Ефективність вирішення проблеми лексичної неоднозначності (Word sense disambiguation, WSD) можна підвищити, перейнявши практику об’єднання різних баз даних з досліджень штучного інтелекту. Для перевірки цієї гіпотези потрібно визначити, які лексичні бази даних є найкориснішими, і з’ясувати, чи дозволяє їх об’єднання отримати кращі результати. У статті представлено систему семантичної розмітки, яка використовує декілька баз даних. Оцінка системи за допомогою нашого корпусу виявила точність понад 94%.
Наша система не обмежується обробкою обмеженого списку слів, а намагається зняти омонімію усіх повнозначних слів у тексті. Ми уважаємо, що такий підхід є більш підходящим для створення практичних систем.
Переклад М. Погребної
Edmonds, P. Near-Synonymy and Lexical Choice [Неточна синонімія і лексичний вибір] / Philip Edmonds, Graeme Hirst // Computational linguistics. – 2002. – Vol. 28. – No. 2. – Pages 105–144. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760173625#.WIT4Jn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760173625
Створено нову обчислювальну модель представлення точних значень неточних синонімів та відмінностей між ними. Також змодельовано процес лексичного вибору, який може вирішити, котрий із декількох неточних синонімів найкраще вжити у певній ситуації. Це дослідження отримало практичне застосування у машинному перекладі і генерації тексту.
Спочатку було визначено проблеми представлення неточних синонімів у комп’ютерному лексиконі та продемонстровано, що жодна з попередніх моделей не враховує належним чином неточну синонімію. Потім було висунуто гіпотезу, яка пояснює неточну синонімію, спираючись головним чином на поняття деталізації репрезентації, згідно якого значення слова є результатом залежного від контексту поєднання контекстно-незалежного основного значення та сукупності його очевидних відмінностей від його неточних синонімів. Таким чином, неточні синоніми утворюють кластери.
Потім на основі стандартної онтологічної моделі було розроблено кластеризовану модель лексичних знань. Модель відсікає онтологію на рівні великих структурних одиниць, уникаючи таким чином небажаного збільшення в онтології кількості залежних від мови концептів, але зберігаючи при цьому переваги ефективного обчислення і аргументування. Модель ділить неточні синоніми на субконцептуальні кластери, які з’єднуються з онтологією. Кластер розмежовує неточні синоніми у плані деталізації значення, імплікації, вираженого відношення і стилю. Модель є достатньо загальною, щоб пояснити інші типи варіацій, наприклад, у особливостях сполучуваності.
Результатом роботи кластерізованої моделі лексичних даних є ефективний, надійний і гнучкий процес точного лексичного вибору. Для того щоб модель працювала, критерії лексичного вибору було формалізовано як налаштування вираження певних концептів із різним рівнем прямоти, вираження відношення і створення певних стилів. Власне процес лексичного вибору складається з двох рівнів: між кластерами і між неточними синонімами кластерів. Описано застосування прототипа системи, який називається I-Saurus.
Створено нову обчислювальну модель представлення точних значень неточних синонімів та відмінностей між ними. Також змодельовано процес лексичного вибору, який може вирішити, котрий із декількох неточних синонімів найкраще вжити у певній ситуації. Це дослідження отримало практичне застосування у машинному перекладі і генерації тексту.
Спочатку було визначено проблеми представлення неточних синонімів у комп’ютерному лексиконі та продемонстровано, що жодна з попередніх моделей не враховує належним чином неточну синонімію. Потім було висунуто гіпотезу, яка пояснює неточну синонімію, спираючись головним чином на поняття деталізації репрезентації, згідно якого значення слова є результатом залежного від контексту поєднання контекстно-незалежного основного значення та сукупності його очевидних відмінностей від його неточних синонімів. Таким чином, неточні синоніми утворюють кластери.
Потім на основі стандартної онтологічної моделі було розроблено кластеризовану модель лексичних знань. Модель відсікає онтологію на рівні великих структурних одиниць, уникаючи таким чином небажаного збільшення в онтології кількості залежних від мови концептів, але зберігаючи при цьому переваги ефективного обчислення і аргументування. Модель ділить неточні синоніми на субконцептуальні кластери, які з’єднуються з онтологією. Кластер розмежовує неточні синоніми у плані деталізації значення, імплікації, вираженого відношення і стилю. Модель є достатньо загальною, щоб пояснити інші типи варіацій, наприклад, у особливостях сполучуваності.
Результатом роботи кластерізованої моделі лексичних даних є ефективний, надійний і гнучкий процес точного лексичного вибору. Для того щоб модель працювала, критерії лексичного вибору було формалізовано як налаштування вираження певних концептів із різним рівнем прямоти, вираження відношення і створення певних стилів. Власне процес лексичного вибору складається з двох рівнів: між кластерами і між неточними синонімами кластерів. Описано застосування прототипа системи, який називається I-Saurus.
Переклад І. Снєгурова
Lapata, M. The Disambiguation of Nominalizations [Зняття неоднозначності номіналізацій] / Maria Lapata // Computational linguistics. – 2002. – Vol. 28. – No. 3. – Pages 357–388. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760276018#.WIEhXn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760276018
У цій статті висвітлюється інтерпретація номіналізацій, особливого класу іменних груп, у яких ядро виражене віддієслівним іменником, а модифікатор є аргументом вихідного дієслова. При спробі автоматично інтерпретувати номіналізації потрібно завжди брати до уваги: (a) обмеження сполучуваності, накладені субстантивованим ядром іменної групи, (б) той факт, що відношення між модифікатором і ядром можуть бути неоднозначними, і (в) той факт, що ці неоднозначності можна легко вирішити завдяки контексту або прагматичним чинникам. Інтерпретація номіналізацій створює додаткову проблему для імовірнісних підходів, оскільки аргументні відношення між ядром і модифікатором у корпусі виявити непросто. Навіть наближення, що встановлює вихіднє дієслово, від якого утворене ядро іменної групи, не забезпечує достатніх даних. Ми пропонуємо розглядати інтерпретацію як вирішення проблеми неоднозначності і показуємо, як можна "відтворити" відсутні дані про дистрибуцію, використовуючи частковий синтаксичний аналіз, методи згладжування даних, і контекст. Ми об'єднали ці окремі джерела інформації, використовуючи програму Ripper, яка видобуває набори правил з даних, і досягали точності 86,1% (при стандарті 61,5%) на матеріалі Британського національного корпусу.
У цій статті висвітлюється інтерпретація номіналізацій, особливого класу іменних груп, у яких ядро виражене віддієслівним іменником, а модифікатор є аргументом вихідного дієслова. При спробі автоматично інтерпретувати номіналізації потрібно завжди брати до уваги: (a) обмеження сполучуваності, накладені субстантивованим ядром іменної групи, (б) той факт, що відношення між модифікатором і ядром можуть бути неоднозначними, і (в) той факт, що ці неоднозначності можна легко вирішити завдяки контексту або прагматичним чинникам. Інтерпретація номіналізацій створює додаткову проблему для імовірнісних підходів, оскільки аргументні відношення між ядром і модифікатором у корпусі виявити непросто. Навіть наближення, що встановлює вихіднє дієслово, від якого утворене ядро іменної групи, не забезпечує достатніх даних. Ми пропонуємо розглядати інтерпретацію як вирішення проблеми неоднозначності і показуємо, як можна "відтворити" відсутні дані про дистрибуцію, використовуючи частковий синтаксичний аналіз, методи згладжування даних, і контекст. Ми об'єднали ці окремі джерела інформації, використовуючи програму Ripper, яка видобуває набори правил з даних, і досягали точності 86,1% (при стандарті 61,5%) на матеріалі Британського національного корпусу.
Переклад Т. Павлущенко, М. Погребної
McCarthy, D. Disambiguating Nouns, Verbs, and Adjectives Using Automatically Acquired Selectional Preferences [Зняття омонімії іменників, дієслів і прикметників за допомогою автоматично визначених селекційних преференцій] / Diana McCarthy, John Carroll // Computational linguistics. – 2003. – Vol. 29. – No. 4. – Pages 639–654. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322753365#.WIe_w33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322753365
Системи зняття лексичної багатозначності (ЗЛБ) використовують селекційні преференції як джерело інформації, необхідної для вирішення проблеми лексичної багатозначності. Ми оцінюємо ЗЛБ, використовуючи селекційні преференції, отримані для граматичних відносин англійських прикметника-іменника, підмета і прямого додатка із стандартного тестового корпусу. Селекційні преференції характеризують класи дієслів або прикметників, а не окремі словоформи, отже їх можна використати для того, щоб вирішити омонімію супутніх прикметників і дієслів, а не лише іменних вершин аргументів. Також досліджено використання еврістики «одне значення на дискурс» з метою присвоєння смислової мітки для певного слова іншим уживанням цього слова у документі з метою збільшення охоплення. Хоча у порівнянні з іншими системами ЗЛБ без учителя преференції дають хороші результати на одному й тому корпусі, результати дослідження свідчать, що багатьом програмам необхідні додаткові джерела інформації для досягнення прийнятного рівня точності й охоплення. Крім кількісної оцінки результатів, їх проаналізовано з метою визначення ситуацій, у яких селекційні преференції дають найточніший результат і в яких еврістика «одне значення на дискурс» підвищує продуктивність.
Системи зняття лексичної багатозначності (ЗЛБ) використовують селекційні преференції як джерело інформації, необхідної для вирішення проблеми лексичної багатозначності. Ми оцінюємо ЗЛБ, використовуючи селекційні преференції, отримані для граматичних відносин англійських прикметника-іменника, підмета і прямого додатка із стандартного тестового корпусу. Селекційні преференції характеризують класи дієслів або прикметників, а не окремі словоформи, отже їх можна використати для того, щоб вирішити омонімію супутніх прикметників і дієслів, а не лише іменних вершин аргументів. Також досліджено використання еврістики «одне значення на дискурс» з метою присвоєння смислової мітки для певного слова іншим уживанням цього слова у документі з метою збільшення охоплення. Хоча у порівнянні з іншими системами ЗЛБ без учителя преференції дають хороші результати на одному й тому корпусі, результати дослідження свідчать, що багатьом програмам необхідні додаткові джерела інформації для досягнення прийнятного рівня точності й охоплення. Крім кількісної оцінки результатів, їх проаналізовано з метою визначення ситуацій, у яких селекційні преференції дають найточніший результат і в яких еврістика «одне значення на дискурс» підвищує продуктивність.
Переклад А. Синящик
Lapata, M. Verb Class Disambiguation Using Informative Priors [Визначення класу дієслова за допомогою інформативних пріоритетів] / Mirella Lapata, Chris Brew // Computational linguistics. – 2004. – Vol. 30. – No. 1. – Pages 45–73. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104773633385#.WIEh233sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104773633385
У лексичній семантиці широко використовується дослідження класів дієслова Левін (1993). Згідно її типології, деякі дієслова, такі як give, належать до одного класу. Але інші дієслова, такі як write, можуть входити до кількох альтернативних класів. Ми розширили список Левін до простої статистичної моделі омонімії дієслова. Використовуючи цю модель, можна генерувати найкращі рішення для багатозначних дієслів без використання корпусу зі знятою омонімією. У статті також показано, що ці найкращі рішення можна використовувати в якості пріоритетів для програми зняття омонімії дієслова.
У лексичній семантиці широко використовується дослідження класів дієслова Левін (1993). Згідно її типології, деякі дієслова, такі як give, належать до одного класу. Але інші дієслова, такі як write, можуть входити до кількох альтернативних класів. Ми розширили список Левін до простої статистичної моделі омонімії дієслова. Використовуючи цю модель, можна генерувати найкращі рішення для багатозначних дієслів без використання корпусу зі знятою омонімією. У статті також показано, що ці найкращі рішення можна використовувати в якості пріоритетів для програми зняття омонімії дієслова.
Переклад Т. Павлущенко, М. Погребної
McCarthy, D. Unsupervised Acquisition of Predominant Word Senses [Алгоритм неконтрольованого встановлення переважаючих значень слова] / Diana McCarthy, Rob Koeling, Julie Weeds, John Carroll // Computational linguistics. – 2007. – Vol. 33. – No. 4. – Pages 553–590. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.4.553#.WIEryH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.4.553
Останнім часом здійснено багато досліджень, присвячених усуненню лексичної омонімії, особливо після появи тестових наборів конференції Senseval. Оскілько слово часто має більше одного значення, зняття лексичної неоднозначності може підвищити продуктивність програм, які вимагають семантичної інтерпретації уведених мовних даних. Головна проблема полягає в тому, що точність вирішення проблеми лексичної омонімії значною мірою залежить від обсягу доступних даних з виконаною вручну семантичною розміткою, і що навіть найкращі системи, здійснюючи анотування кожного слововживання у документі, рідко перевершують результати простого евристичного алгоритму, який використовує перше, або переважаюче, значення слова в усіх контекстах. Ефективність запропонованого евристичного алгоритму пояснюється асиметричною природою дистрибуцій лексичних значень. Дані для евристичного алгоритму можна брати як із словників, так і з набору даних із семантичною розміткою. Проте, кількість останніх обмежена, а дистрибуція значень і переважаюче значення слова може залежати від предметної області і джерела тексту. (Наприклад, у популярних і наукових журналах перше значення слова «зірка» буде різним). У статті докладно проаналізовано запропонований раніше метод автоматичного визначення переважаючого значення слова у сирому тексті. Розглянувши велику кількість джерел даних і параметризацій цього методу і проаналізувавши результати оцінювання і аналіз помилок, визначено, у яких випадках цей метод є ефективним, а в яких ні. Зокрема з’ясовано, що цей метод дає кращі результати для іменників і прикметників, ніж для дієслів і прислівників, але на відміну від дуже популярного корпусу SemCor дає точнішу інформацію про переважаюче значення іменників з низькою частотністю у вказаному корпусі. Також показано, що цей метод можна успішно адаптувати для предметних областей, використовуючи в якості вводу спеціальні корпуси текстів з конкретної предметної области з ручним анотуванням предметної області або класифікованих автоматично.
Останнім часом здійснено багато досліджень, присвячених усуненню лексичної омонімії, особливо після появи тестових наборів конференції Senseval. Оскілько слово часто має більше одного значення, зняття лексичної неоднозначності може підвищити продуктивність програм, які вимагають семантичної інтерпретації уведених мовних даних. Головна проблема полягає в тому, що точність вирішення проблеми лексичної омонімії значною мірою залежить від обсягу доступних даних з виконаною вручну семантичною розміткою, і що навіть найкращі системи, здійснюючи анотування кожного слововживання у документі, рідко перевершують результати простого евристичного алгоритму, який використовує перше, або переважаюче, значення слова в усіх контекстах. Ефективність запропонованого евристичного алгоритму пояснюється асиметричною природою дистрибуцій лексичних значень. Дані для евристичного алгоритму можна брати як із словників, так і з набору даних із семантичною розміткою. Проте, кількість останніх обмежена, а дистрибуція значень і переважаюче значення слова може залежати від предметної області і джерела тексту. (Наприклад, у популярних і наукових журналах перше значення слова «зірка» буде різним). У статті докладно проаналізовано запропонований раніше метод автоматичного визначення переважаючого значення слова у сирому тексті. Розглянувши велику кількість джерел даних і параметризацій цього методу і проаналізувавши результати оцінювання і аналіз помилок, визначено, у яких випадках цей метод є ефективним, а в яких ні. Зокрема з’ясовано, що цей метод дає кращі результати для іменників і прикметників, ніж для дієслів і прислівників, але на відміну від дуже популярного корпусу SemCor дає точнішу інформацію про переважаюче значення іменників з низькою частотністю у вказаному корпусі. Також показано, що цей метод можна успішно адаптувати для предметних областей, використовуючи в якості вводу спеціальні корпуси текстів з конкретної предметної области з ручним анотуванням предметної області або класифікованих автоматично.
Переклад В. Коломієць
O'Hara, T. Exploiting Semantic Role Resources for Preposition Disambiguation [Використання розмітки семантичних ролей у знятті прийменникової омонімії] / Tom O'Hara, Janyce Wiebe // Computational linguistics. – 2009. – Vol. 35. – No. 2. – Pages 151–184. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.06-79-prep15#.WIElk33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.06-79-prep15
У статті описано як можна використати семантичні ресурси для зняття прийменникової омонімії. Основними ресурсами є корпуси Penn Treebank і FrameNet із розміткою семантичних ролей. Ресурси також включають твердження з бази знань Factotum, а також інформацію з онтології Cyc і концептуальних графів. На основі цих ресурсів створено спільний інвентар для аналізу визначень, який є метою цього дослідження.
Зняття омонімії зосереджене на відносинах, позначених прийменниковими групами, і розглядається як усунення омонімії конкретного прийменника. Запропоновано новий підхід до зняття лексичної омонімії, шляхом використання гиперонімів WordNet як коллокацій, а не просто слів. Описано різні експерименти з даними з корпусів Penn Treebank і FrameNet, які ілюструють наслідки фільтрації, зокрема класифікацію прийменників разом і окремо. Подібні експерименти проведені і з даними з Factotum, зокрема метод прогнозування вірогідного використання прийменників у корпусах, оскільки бази знань як правило не містять інформації про способи вираження відносин у англійській мові (на відміну від детальних поміт із цією інформацією у корпусах Penn Treebank і FrameNet). Також описано експерименти з даними з FrameNet, включеними у розроблений для аналізу визначень спільний інвентар відносин, які демонструють, як можна застосувати зняття прийменникової омонімії у засвоєнні лексики.
У статті описано як можна використати семантичні ресурси для зняття прийменникової омонімії. Основними ресурсами є корпуси Penn Treebank і FrameNet із розміткою семантичних ролей. Ресурси також включають твердження з бази знань Factotum, а також інформацію з онтології Cyc і концептуальних графів. На основі цих ресурсів створено спільний інвентар для аналізу визначень, який є метою цього дослідження.
Зняття омонімії зосереджене на відносинах, позначених прийменниковими групами, і розглядається як усунення омонімії конкретного прийменника. Запропоновано новий підхід до зняття лексичної омонімії, шляхом використання гиперонімів WordNet як коллокацій, а не просто слів. Описано різні експерименти з даними з корпусів Penn Treebank і FrameNet, які ілюструють наслідки фільтрації, зокрема класифікацію прийменників разом і окремо. Подібні експерименти проведені і з даними з Factotum, зокрема метод прогнозування вірогідного використання прийменників у корпусах, оскільки бази знань як правило не містять інформації про способи вираження відносин у англійській мові (на відміну від детальних поміт із цією інформацією у корпусах Penn Treebank і FrameNet). Також описано експерименти з даними з FrameNet, включеними у розроблений для аналізу визначень спільний інвентар відносин, які демонструють, як можна застосувати зняття прийменникової омонімії у засвоєнні лексики.
Переклад В. Коломієць
Giuliano, C. Kernel Methods for Minimally Supervised WSD [Ядерні методи для мінімально контрольованого зняття багатозначності] / Claudio Giuliano, Alfio Massimiliano Gliozzo, Carlo Strapparava // Computational linguistics. – 2009. – Vol. 35. – No. 4. – Pages 513–528. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2009.35.4.35407#.WIEnAn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35407
У статті описано напівконтрольований метод розв'язання анафори, який використовує зовнішні, отримані без будь-якого контролю знання. Зокрема, використовуються базові функції ядра для незалежної оцінки синтагматичної і тематичної схожості, створюючи набір класифікаторів слів, які використовують модель спільного домену, отриману з великого корпусу нерозмічених даних. Результати свідчать, що запропонований підхід дозволив досягти сучасного рівня продуктивності у завданнях конференції Senseval-3 для різних обмежених наборів слів і всіх слів корпусу, хоча він використовує значно меншу кількість тренувальних прикладів, ніж інші методи.
У статті описано напівконтрольований метод розв'язання анафори, який використовує зовнішні, отримані без будь-якого контролю знання. Зокрема, використовуються базові функції ядра для незалежної оцінки синтагматичної і тематичної схожості, створюючи набір класифікаторів слів, які використовують модель спільного домену, отриману з великого корпусу нерозмічених даних. Результати свідчать, що запропонований підхід дозволив досягти сучасного рівня продуктивності у завданнях конференції Senseval-3 для різних обмежених наборів слів і всіх слів корпусу, хоча він використовує значно меншу кількість тренувальних прикладів, ніж інші методи.
Переклад В. Коломієць
Yuret, D. The Noisy Channel Model for Unsupervised Word Sense Disambiguation [Модель каналу з перешкодами для неконтрольованого зняття лексичної багатозначності] / Deniz Yuret, Mehmet Ali Yatbaz // Computational linguistics. – 2010. – Vol. 36. – No. 1. – Pages 111–127. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2010.36.1.36103#.WIEnoX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2010.36.1.36103
У статті описано генеративну імовірнісну модель, модель каналу з перешкодами, для неконтрольованого зняття лексичної багатозначності. У запропонованій моделі кожний контекст C змодельований як окремий канал, через який мовець планує передати певне значення S, використовуючи потенційно неоднозначне слово W. Щоб вибрати потрібне значення, слухач використовує дистрибуцію можливих значень у даному контексті Р(S|C) і можливі слова, які можуть виразити кожне значення Р(W|C). Ми виходили з того, що Р(W|C) є незалежним від контексту і вираховували його, використовуючи частоти значень у тезаурусі WordNet. Головною проблемою неконтрольованого зняття лексичної багатозначності є визначення обумовленого контекстом значення без доступу до жодного тексту із семантичною розміткою. Наведено один із способів вирішення цієї проблеми за допомогою статистичної мовної моделі, яка спирається на великий обсяг нерозміченого тексту. У середині моделі використовуються великі семантичні класи S. Досліджено вплив різних рівнів деталізації на ефективність зняття лексичної багатозначності. Запропонована система продукує дуже точні значення для оцінювання, а за ефективністю зняття неоднозначності іменників вона перевершила більшість описаних у літературі систем і наблизилась до найкращих контрольованих систем.
У статті описано генеративну імовірнісну модель, модель каналу з перешкодами, для неконтрольованого зняття лексичної багатозначності. У запропонованій моделі кожний контекст C змодельований як окремий канал, через який мовець планує передати певне значення S, використовуючи потенційно неоднозначне слово W. Щоб вибрати потрібне значення, слухач використовує дистрибуцію можливих значень у даному контексті Р(S|C) і можливі слова, які можуть виразити кожне значення Р(W|C). Ми виходили з того, що Р(W|C) є незалежним від контексту і вираховували його, використовуючи частоти значень у тезаурусі WordNet. Головною проблемою неконтрольованого зняття лексичної багатозначності є визначення обумовленого контекстом значення без доступу до жодного тексту із семантичною розміткою. Наведено один із способів вирішення цієї проблеми за допомогою статистичної мовної моделі, яка спирається на великий обсяг нерозміченого тексту. У середині моделі використовуються великі семантичні класи S. Досліджено вплив різних рівнів деталізації на ефективність зняття лексичної багатозначності. Запропонована система продукує дуже точні значення для оцінювання, а за ефективністю зняття неоднозначності іменників вона перевершила більшість описаних у літературі систем і наблизилась до найкращих контрольованих систем.
Переклад Т. Павлущенко, М. Погребної
Erk, K. Measuring Word Meaning in Context [Визначення значення слова у контексті] / Katrin Erk, Diana McCarthy, Nicholas Gaylord // Computational linguistics. – 2013. – Vol. 39. – No. 3. – Pages 511–554. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00142#.WIEoSH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00142#.VRGBVfmsU5E
Зняття лексичної багатозначності (Word Sense Disambiguation, WSD) є давнім і важливим завданням комп’ютерної лінгвістики, розв’язання якого все ще є складним як для комп’ютерів, так і для людей-анотаторів. Останнім часом було запропоновано декілька способів представлення значення слова у контексті, які відрізняються від традиційного використання одного найбільш підходящого значення для кожного випадку. Вони пояснюють значення слова у контексті за допомогою кількох перифраз як крапок у векторному просторі чи розподілу прихованих значень. Потрібні нові методи оцінки і порівняння цих різних представлень.
У цій статті запропоновано дві нові схеми анотування, які ранжують значення слова у контексті. При анотуванні за схемою Wssim оцінюється прийнятність кожного словникового значення за допомогою порядкової шкали. При застосуванні схеми Usim безпосередньо оцінюється подібність пар вживання однієї леми, знову за допомогою шкали. Показано, що нові схеми анотування дозволяють отримати високі показники узгодженості між анотаторами, а також демонструють стійку кореляцію з традиційним анотуванням одного значення та з анотуванням кількох лексичних перифраз. Анотатори використують увесь масштаб порядкової шкали і роблять дуже точні висновки, які «змішують та співставляють» значення для кожного окремого вживання. Також продемонстровано, шо ранжування за схемою Usim підкоряється аксіомі трикутника, що свідчить на користь моделей, які розглядають подібність вживання як мірку.
Останнім часом здійснено велику роботу по грубій класифікації значень. У статті показано, що можна використовувати ранжування за схемами Wssim і Usim з метою аналізу існуючої грубої класифікації, щоб визначити групи значень, які можуть суперечити інтуїції непідготовлених носіїв мови. Також у ході порівняння продемонстровано, що показники Wssim не входять до будь-якої статичної класифікації значень.
Зняття лексичної багатозначності (Word Sense Disambiguation, WSD) є давнім і важливим завданням комп’ютерної лінгвістики, розв’язання якого все ще є складним як для комп’ютерів, так і для людей-анотаторів. Останнім часом було запропоновано декілька способів представлення значення слова у контексті, які відрізняються від традиційного використання одного найбільш підходящого значення для кожного випадку. Вони пояснюють значення слова у контексті за допомогою кількох перифраз як крапок у векторному просторі чи розподілу прихованих значень. Потрібні нові методи оцінки і порівняння цих різних представлень.
У цій статті запропоновано дві нові схеми анотування, які ранжують значення слова у контексті. При анотуванні за схемою Wssim оцінюється прийнятність кожного словникового значення за допомогою порядкової шкали. При застосуванні схеми Usim безпосередньо оцінюється подібність пар вживання однієї леми, знову за допомогою шкали. Показано, що нові схеми анотування дозволяють отримати високі показники узгодженості між анотаторами, а також демонструють стійку кореляцію з традиційним анотуванням одного значення та з анотуванням кількох лексичних перифраз. Анотатори використують увесь масштаб порядкової шкали і роблять дуже точні висновки, які «змішують та співставляють» значення для кожного окремого вживання. Також продемонстровано, шо ранжування за схемою Usim підкоряється аксіомі трикутника, що свідчить на користь моделей, які розглядають подібність вживання як мірку.
Останнім часом здійснено велику роботу по грубій класифікації значень. У статті показано, що можна використовувати ранжування за схемами Wssim і Usim з метою аналізу існуючої грубої класифікації, щоб визначити групи значень, які можуть суперечити інтуїції непідготовлених носіїв мови. Також у ході порівняння продемонстровано, що показники Wssim не входять до будь-якої статичної класифікації значень.
Переклад Д. Попової
Agirre, E. Random Walks for Knowledge-Based Word Sense Disambiguation [Використання методу випадкових блукань у вирішенні проблеми лексичної багатозначності на основі знань] / Eneko Agirre, Oier López de Lacalle, Aitor Soroa // Computational linguistics. – 2014. – Vol. 40. – No. 1. – Pages 57–84. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00164#.WIEpdX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00164#.VRGAy_msU5E
Системи зняття лексичної багатозначності (Word Sense Disambiguation, WSD) автоматично обирають потрібне значення слова у контексті. У цій статті ми представляємо алгоритм WSD на основі випадкових блукань у великих лексичних базах даних (ЛБД). Ми демонструємо, що наш алгоритм працює краще, ніж інші графові моделі, коли за основу береться граф, побудований за допомогою WordNet та eXtended WordNet. Поєднання нашого алгоритму та ЛБД вигідно відрізняється від інших відомих методів на основі знань, які застосовують подібні знання до різноманітних баз даних англійської мови та бази даних іспанської мови. Ми додаємо детальний аналіз факторів, що впливають на алгоритм. Алгоритм та використовувані лексичні бази даних знаходяться у відкритому доступі і результати можна легко перевірити.
Системи зняття лексичної багатозначності (Word Sense Disambiguation, WSD) автоматично обирають потрібне значення слова у контексті. У цій статті ми представляємо алгоритм WSD на основі випадкових блукань у великих лексичних базах даних (ЛБД). Ми демонструємо, що наш алгоритм працює краще, ніж інші графові моделі, коли за основу береться граф, побудований за допомогою WordNet та eXtended WordNet. Поєднання нашого алгоритму та ЛБД вигідно відрізняється від інших відомих методів на основі знань, які застосовують подібні знання до різноманітних баз даних англійської мови та бази даних іспанської мови. Ми додаємо детальний аналіз факторів, що впливають на алгоритм. Алгоритм та використовувані лексичні бази даних знаходяться у відкритому доступі і результати можна легко перевірити.
Переклад Д. Попової
Pilehvar, M. T. A Large-Scale Pseudoword-Based Evaluation Framework for State-of-the-Art Word Sense Disambiguation [Широкомасштабна оцінка сучасних методів зняття лексичної багатозначності на основі псевдослів] / Mohammad Taher Pilehvar, Roberto Navigli // Computational linguistics. – 2014. – Vol. 40. – No. 4. – Pages 837–881. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00202#.WIEp5n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00202#.VRF_GfmsU5E
Оцінка деяких завдань у лексичній семантиці нерідко є обмеженою через брак великої кількості ручних анотацій не лише для навчальних цілей, але також для тестування. Одним із таких завдань є зняття лексичної багатозначності (Word Sense Disambiguation, WSD), оскільки ручна розмітка баз даних є дуже складною і займає багато часу. Як наслідок, оцінювання, як правило, виконується у невеликих масштабах, що не дозволяє здійснити ретельний аналіз факторів, від яких залежить продуктивність системи.
У цій роботі ми досліджуємо це питання шляхом реалістичного моделювання великомасштабної оцінки завдання WSD за допомогою двох головних нововведень. По-перше, ми пропонуємо два нові підходи до широкомасштабної генерації багатозначних псевдослів (тобто штучних слів, здатних моделювати реальні багатозначні слова); по-друге, ми використовуємо найбільш підходящий тип псевдослова, щоб створити великі корпуси з розміткою псевдозначень, які можна використати в ролі великомасштабної експериментальної бази для порівняння новітніх методів на основі навчання з учителем і на основі знань. Використовуючи цю експериментальну базу, ми досліджуємо вплив навчання з учителем і знань на два основні методи зняття лексичної багатозначності та здійснюємо ретельний аналіз факторів, які впливають на їх продуктивність.
Оцінка деяких завдань у лексичній семантиці нерідко є обмеженою через брак великої кількості ручних анотацій не лише для навчальних цілей, але також для тестування. Одним із таких завдань є зняття лексичної багатозначності (Word Sense Disambiguation, WSD), оскільки ручна розмітка баз даних є дуже складною і займає багато часу. Як наслідок, оцінювання, як правило, виконується у невеликих масштабах, що не дозволяє здійснити ретельний аналіз факторів, від яких залежить продуктивність системи.
У цій роботі ми досліджуємо це питання шляхом реалістичного моделювання великомасштабної оцінки завдання WSD за допомогою двох головних нововведень. По-перше, ми пропонуємо два нові підходи до широкомасштабної генерації багатозначних псевдослів (тобто штучних слів, здатних моделювати реальні багатозначні слова); по-друге, ми використовуємо найбільш підходящий тип псевдослова, щоб створити великі корпуси з розміткою псевдозначень, які можна використати в ролі великомасштабної експериментальної бази для порівняння новітніх методів на основі навчання з учителем і на основі знань. Використовуючи цю експериментальну базу, ми досліджуємо вплив навчання з учителем і знань на два основні методи зняття лексичної багатозначності та здійснюємо ретельний аналіз факторів, які впливають на їх продуктивність.
Переклад Д. Попової
Word Sense Clustering and Clusterability [Кластеризація значень слів і здатність до кластеризації] / Diana McCarthy, Marianna Apidianaki, Katrin Erk // Computational linguistics. – 2016. – Vol. 42. – No. 2. – Pages 245–275. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00247 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00247
Зняття лексичної багатозначності та споріднена галузь автоматичного видобування значень слів традиційно виходять з припущення, що випадки вживання леми можна розділити на значення. Але для певних лем це завдання є значно легшим, аніж для інших. Ця праця ґрунтується на останніх дослідженнях, які пропонують описувати значення слів шляхом градуювання, а не строгого розподілу на значення; у статті стверджується, що не всі леми потребують складнішого градуйованого аналізу, залежно від їхньої здатності до розподілу. Хоча завдяки попереднім дослідженням і лінгвістичній літературі існує багато доказів існування спектру розчленовуваності значень слів, це перша спроба виміряти вказане явище та об'єднати публікації з машинного навчання, присвячені здатності до кластеризації, з даними про вживання слів, які використовуються в комп’ютерній лінгвістиці.
Автори вирішили реалізувати розчленовуваність у вигляді здатності до кластеризації, міри того, наскільки легко кластеризуються вживання лем. Перевірено два способи вимірювання здатності до кластеризації: (1) описані в публікаціях з машинного навчання методи, метою яких є оцінка якості оптимальних кластерних рішень, отриманих методом k-середніх, і (2) припущення, що якщо лема більш схильна до кластеризації, два кластерні рішення, що базуються на двох різних «поглядах» на ті самі дані, будуть більш схожими. Два погляди, використані в дослідженні, – це два різні набори створених вручну лексичних замінників цільової леми: з одного боку – одномовні перефразування, а з другого – переклади. Автоматичну кластеризацію застосовано до виконаних вручну маркувань. Використання ручного маркування зумовлене бажанням отримати максимально інформативні й «чисті» репрезентації випадків, які кластеризуються. Показано, що за умови контролю над полісемією, запропоновані міри здатності до кластеризації, як правило, корелюють з розчленовуваністю, зокрема деякі міри здатності до кластеризації типу (1), і що ці міри перевершують базовий поріг, що визначається обсягом перекриття при м'якій кластеризації.
Зняття лексичної багатозначності та споріднена галузь автоматичного видобування значень слів традиційно виходять з припущення, що випадки вживання леми можна розділити на значення. Але для певних лем це завдання є значно легшим, аніж для інших. Ця праця ґрунтується на останніх дослідженнях, які пропонують описувати значення слів шляхом градуювання, а не строгого розподілу на значення; у статті стверджується, що не всі леми потребують складнішого градуйованого аналізу, залежно від їхньої здатності до розподілу. Хоча завдяки попереднім дослідженням і лінгвістичній літературі існує багато доказів існування спектру розчленовуваності значень слів, це перша спроба виміряти вказане явище та об'єднати публікації з машинного навчання, присвячені здатності до кластеризації, з даними про вживання слів, які використовуються в комп’ютерній лінгвістиці.
Автори вирішили реалізувати розчленовуваність у вигляді здатності до кластеризації, міри того, наскільки легко кластеризуються вживання лем. Перевірено два способи вимірювання здатності до кластеризації: (1) описані в публікаціях з машинного навчання методи, метою яких є оцінка якості оптимальних кластерних рішень, отриманих методом k-середніх, і (2) припущення, що якщо лема більш схильна до кластеризації, два кластерні рішення, що базуються на двох різних «поглядах» на ті самі дані, будуть більш схожими. Два погляди, використані в дослідженні, – це два різні набори створених вручну лексичних замінників цільової леми: з одного боку – одномовні перефразування, а з другого – переклади. Автоматичну кластеризацію застосовано до виконаних вручну маркувань. Використання ручного маркування зумовлене бажанням отримати максимально інформативні й «чисті» репрезентації випадків, які кластеризуються. Показано, що за умови контролю над полісемією, запропоновані міри здатності до кластеризації, як правило, корелюють з розчленовуваністю, зокрема деякі міри здатності до кластеризації типу (1), і що ці міри перевершують базовий поріг, що визначається обсягом перекриття при м'якій кластеризації.
Переклад М. Дубка
Stilo, G. Hashtag Sense Clustering Based on Temporal Similarity [Кластеризація значень хештегів за часовою подібністю] / Giovanni Stilo, Paola Velardi // Computational linguistics. – 2017. – Vol. 43. – No. 1. – Pages 181–200. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00277 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00277
Хештеги – це вигадливі мітки, які використовуються у мікроблогах, щоб охарактеризувати тему повідомлення/обговорення. Незважаючи на своє первинне призначення, хештеги не можуть використовуватися як засіб кластеризації повідомлень із подібним вмістом. По-перше, оскільки користувачі активно і спонтанно створюють хештеги багатьма мовами, одна й та ж тема може асоціюватись із різними хештегами, і навпаки, один і той же хештег може стосуватися різних тем у різні періоди часу. По-друге, на відміну від загальновживаних слів зняття лексичної багатозначності хештегів ускладнюється відсутністю доступних каталогів значень (наприклад, Вікіпедії або WordNet); і, крім того, мітки хештегів складно аналізувати, оскільки вони часто складаються з абревіатур, складених слів тощо. Загальноприйнятий спосіб визначення значення хештегів – це аналіз їхнього контексту, але, як зазначено вище, хештеги можуть мати багато різних значень. У статті запропоновано алгоритм кластеризації за часовими значеннями, який базується на ідеї про те, що семантично пов'язані хештеги використовуються аналогічно й одночасно.
Хештеги – це вигадливі мітки, які використовуються у мікроблогах, щоб охарактеризувати тему повідомлення/обговорення. Незважаючи на своє первинне призначення, хештеги не можуть використовуватися як засіб кластеризації повідомлень із подібним вмістом. По-перше, оскільки користувачі активно і спонтанно створюють хештеги багатьма мовами, одна й та ж тема може асоціюватись із різними хештегами, і навпаки, один і той же хештег може стосуватися різних тем у різні періоди часу. По-друге, на відміну від загальновживаних слів зняття лексичної багатозначності хештегів ускладнюється відсутністю доступних каталогів значень (наприклад, Вікіпедії або WordNet); і, крім того, мітки хештегів складно аналізувати, оскільки вони часто складаються з абревіатур, складених слів тощо. Загальноприйнятий спосіб визначення значення хештегів – це аналіз їхнього контексту, але, як зазначено вище, хештеги можуть мати багато різних значень. У статті запропоновано алгоритм кластеризації за часовими значеннями, який базується на ідеї про те, що семантично пов'язані хештеги використовуються аналогічно й одночасно.
Переклад М. Дубка
Tripodi, R. A Game-Theoretic Approach to Word Sense Disambiguation [Метод зняття лексичної багатозначності на основі теорії ігор] / Rocco Tripodi, Marcello Pelillo // Computational linguistics. – 2017. – Vol. 43. – No. 1. – Pages 31–70. Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00274 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00274
У статті представлено нову модель для зняття лексичної багатозначності, сформульовану в термінах еволюційної теорії ігор, де кожне багатозначне слово представлено у вигляді вузла графа, ребра якого представляють відношення між словами, а значення представлені як класи. Вірогідності належності слів до класів міняються одночасно, відповідно до потенційних значень сусідніх слів. Для вимірювання впливу кожного слова на вибір інших слів використано інформацію про дистрибуцію, а для вимірювання міцності сумісності між виборами – інформацію про семантичну подібність. Ця інформація може допомогти сформулювати проблему багатозначності слів як проблему дотримання обмежень і вирішити її за допомогою інструментів, запозичених з теорії ігор, зберігши цілісність тексту. В основу метода покладено дві ідеї: подібні слова відносять до подібних класів і значення слова залежить не від усіх слів у тексті, а лише від деяких з них. У статті викладено детальне обґрунтування ідеї моделювання проблеми зняття лексичної багатозначності в термінах теорії ігор, проілюстроване прикладом. У висновку наведено всебічний аналіз сукупності показників подібності для використання у методі та порівняння з найновішими системами. Результати свідчать, що запропонована модель перевершує найсучасніші алгоритми і може бути застосована до різних завдань і в різних ситуаціях.
У статті представлено нову модель для зняття лексичної багатозначності, сформульовану в термінах еволюційної теорії ігор, де кожне багатозначне слово представлено у вигляді вузла графа, ребра якого представляють відношення між словами, а значення представлені як класи. Вірогідності належності слів до класів міняються одночасно, відповідно до потенційних значень сусідніх слів. Для вимірювання впливу кожного слова на вибір інших слів використано інформацію про дистрибуцію, а для вимірювання міцності сумісності між виборами – інформацію про семантичну подібність. Ця інформація може допомогти сформулювати проблему багатозначності слів як проблему дотримання обмежень і вирішити її за допомогою інструментів, запозичених з теорії ігор, зберігши цілісність тексту. В основу метода покладено дві ідеї: подібні слова відносять до подібних класів і значення слова залежить не від усіх слів у тексті, а лише від деяких з них. У статті викладено детальне обґрунтування ідеї моделювання проблеми зняття лексичної багатозначності в термінах теорії ігор, проілюстроване прикладом. У висновку наведено всебічний аналіз сукупності показників подібності для використання у методі та порівняння з найновішими системами. Результати свідчать, що запропонована модель перевершує найсучасніші алгоритми і може бути застосована до різних завдань і в різних ситуаціях.
Переклад М. Дубка