Комп'ютерна лексикографія

Daciuk, J. Incremental Construction of Minimal Acyclic Finite-State Automata [Покрокова побудова мінімальних ациклічних скінченних автоматів] / Jan Daciuk, Stoyan Mihov, Bruce W. Watson, Richard E. Watson // Computational linguistics. – 2000. – Vol. 26. – No. 1. – Pages 3–16. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561601#.WIUkGH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561601

У статті описано новий метод побудови мінімальних детермінованих ациклічних скінченних автоматів із набору рядків. Традиційні методи складаються з двох етапів: на першому будується префіксне дерево, на другому воно мінімізується. Запропонований метод дозволяє побудувати мінімальний автомат за один етап шляхом додавання один за одним нових рядків і одночасної мінімізації отриманого автомата. Описано загальний алгоритм та спеціалізацію, яка спирається на лексикографічне упорядкування вхідних рядків. Запропонований метод швидкий і у порівнянні з іншими методами значно зменшує вимоги до пам’яті.

Переклад Д. Попової

Bozsahin, C. The Combinatory Morphemic Lexicon [Словник сполучуваності морфем] / Cem Bozsahin // Computational linguistics. – 2002. – Vol. 28. – No. 2. – Pages 145–186. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760173634#.WIT58n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760173634

Граматики, які розпізнають слова із лексикону, можуть бути несумісними з прозорою проекцією предметних семантико-синтаксичних відношень між меншими мовними одиницями. Для укладання морфемного граматичного словника розроблена морфосинтаксична модель на основі комбінаторної категоріальної граматики, яка забезпечує універсальні складники, вільне узгодження категорій, і лексичну проекцію морфосинтаксичних характеристик та прив’язаність до граматики. Ці механізми мають достатню експресивну силу для того, щоб сформулювати у словнику семантично прозорі характеристики без обов’язкового обмеження створення структур словами і словосполученнями. Наприклад, зв'язані морфеми у якості лексичних одиниць можуть вживатися в межах словосполучення або слова, незалежно від їх приєднувальних властивостей, але відповідно до їх семантики. Налаштування словника можна змінити відповідно до характеристик певної мови. Розроблений словник є прозорою комбінацією флективної морфології, синтаксису та семантики. У статті описано комп’ютерну систему і продемонстровано практичне застосування моделі на прикладі англійської та турецької мов.

Переклад І. Снєгурова

Carrasco, C. R. Incremental Construction and Maintenance of Minimal Finite-State Automata [Покрокова побудова і супроводження мінімальних скінченних автоматів] / Rafael C. Carrasco, Mikel L. Forcada // Computational linguistics. – 2002. – Vol. 28. – No. 2. – Pages 207–216. – Режим доступу до аннотация: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760173652#.WIT6YX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760173652

Дацюк та ін. (Daciuk et al.) [Computational Linguistics 26(1):3–16 (2000)] описують метод покрокової побудови мінімальних, детермінованих, нециклічних скінченних автоматів (словників) з наборів рядків. Проте, нециклічні скінченні автомати мають обмеження. Наприклад, якщо хтось хоче, щоб лінгвістична програма приймала всі можливі цілі числа або Інтернет адреси, відповідний скінченний автомат повинен бути циклічним. У статті описано простий і не менш ефективний метод модифікації будь-якого мінімального скінченного автомата (незалежно від того циклічний він чи ні), щоб можна було додавати до або вилучати з мови, яку допускає автомат, рядок. Обидві операції є дуже важливими при обслуговуванні словника, вони вирішують проблему створення словника, яку розглядали як особливий випадок Дацюк та ін. Запропоновані у статті алгоритми можна вивести безпосередньо із поданих у будь-якому підручнику пояснень стосовно перетину і доповнення скінченних автоматів. Ці алгоритми використовують особливі властивості автоматів, які є результатом операції перетину, коли один із скінченних автоматів приймає один рядок.

Переклад І. Снєгурова

Ploux, S. A Model for Matching Semantic Maps between Languages (French/English, English/French) [Модель співставлення семантичних карт різних мов (французька/англійська, англійська/французька)] / Sabine Ploux, Hyungsuk Ji // Computational linguistics. – 2003. – Vol. 29. – No. 2. – Pages 155–178. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322145298#.WIIJ1X3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322145298

У статті описано просторову модель співставлення семантичних значень у двох мовах, французькій і англійській. Використовуючи зв’язки семантичної схожості, модель створює карту, яка представляє слово у вихідній мові. Потім модель проектує значення з карти на простір у цільовій мові. Новий простір зберігає зв’язки семантичної схожості, характерні для другої мови. Після цього обидві карти проектуються на одну площину, щоб виявити співпадаючі значення. З навчальною метою опис усіх кроків у статті проілюстровано кількома прикладами. Повний комплект розроблених додатків знаходиться за адресою http://dico.isc.cnrs.fr.

Переклад Т. Павлущенко, М. Погребної

Santamar, C. Automatic Association of Web Directories with Word Senses [Автоматичне зв’язування веб-каталогів зі значеннями слів] / Celina Santamar, Julio Gonzalo, Felisa Verdejo // Computational linguistics. – 2003. – Vol. 29. – No. 3. – Pages 485–502. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322711613#.WIHl433sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322711613

Ми описуємо алгоритм, який зв’язує лексичну інформацію (з семантичної мережі WordNet 1.7) із веб-каталогами (із проекту Відкритий Каталог), для того щоб пов’язати значення слів із такими каталогами. Такі зв’язки можуть бути використані як детальні описи для автоматичного отримання корпусу з семантичною розміткою, кластеризації тематично пов’язаних значень та виявлення особливостей значень. Алгоритм протестовано на 29 іменниках (147 значень), використаних у змаганні Senseval 2, що дозволило отримати 148 зв’язків (значення слів, веб-каталог), котрі охоплюють 88% значень з однієї галузі в тестових даних із точністю 86%. Глибина деталізації описів значень у веб-каталогах проаналізована в процесі котрольованого розв’язання лексичної омонімії з використанням тестового набору під назвою Senseval 2. Результати свідчать, що якщо зв’язок каталог/значення слів правильний, то зразки, отримані автоматично з веб-каталогів, майже так само придатні для тренування, як і оригінальні навчальні приклади з Senseval 2. Отримані результати підтвердили нашу гіпотезу, що веб-каталоги є цінним ресурсом лексичної інформації з меншою кількістю помилок, надійнішим та краще структурованим, аніж Всесвітня мережа в цілому як корпус.

Переклад В. Туз

Navigli, R. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites [Видобування онтологій предметних областей із сховищ документів і спеціалізованих веб-сайтів] / Roberto Navigli, Paola Velardi // Computational linguistics. – 2004. – Vol. 30. – No. 2. – Pages 151–179. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104323093276#.WIT7DH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104323093276

У статті описано метод і інструмент, OntoLearn, призначений для видобування онтологій предметних областей із веб-сайтів і, загалом, з документів, які розповсюджуються серед членів віртуальних організацій. OntoLearn спочатку видобуває термінологію предметної області із наявних документів. Після цього здійснюється семантична інтерпретація складних термінів предметної області і вони розташовуються за ієрархічним принципом. Нарешті, виявленими концептами предметної області коригується і збагачується онтологія загального призначення, WordNet. Новизна запропонованого підходу полягає, насамперед, у семантичній інтерпретації, тобто співставленні складних концептів із складними термінами. Для цього у WordNet знаходяться відповідний концепт для кожного слова у низці термінів і відповідні концептуальні відносини, які об’єднують компоненти концепту. Семантична інтерпретація здійснюється на основі нового алгоритму розв’язання лексичної багатозначності під назвою структурно-семантичні взаємозв’язки.

Переклад В. Коломієць

Daciuk, J. Comments on “Incremental Construction and Maintenance of Minimal Finite-State Automata,” by Rafael C. Carrasco and Mikel L. Forcada [Коментар до статті Р. Карраско і М. Форкади “Покрокова побудова і супроводження мінімальних скінченних автоматів”] / Jan Daciuk // Computational linguistics. – 2004. – Vol. 30. – No. 2. – Pages 227–235. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104323093302#.WIXMUH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104323093302

У нещодавній статті Р. Карраско і М. Форкади [Carrasco and Forcada, June 2002] описано два алгоритми: один для поетапного додавання рядків до мови мінімального детермінованого циклічного автомату, а другий для поетапного видалення рядків з автомату. Перший алгоритм є узагальненням “алгоритму для несортованих даних”, другого з двох покрокових алгоритмів для створення мінімальних детермінованих циклічних автоматів, описаних у роботі Д. Дасюкa та ін. [Daciuk et al., 2000]. Показано, що другий алгоритм iз старішої публікації − “алгоритм для сортованих даних” – може бути узагальнений подібним чином. Новий алгоритм є швидшим, ніж алгоритм для додавання рядків, описаний у статті Р. Карраско і М. Форкади, оскільки він обробляє кожний стан лише один раз.

Переклад В. Коломієць

Mihov, S. Fast Approximate Search in Large Dictionaries [Швидкий приблизний пошук у великих словниках] / Stoyan Mihov, Klaus U. Schulz // Computational linguistics. – 2004. – Vol. 30. – No. 4. – Pages 451–477. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201042544938#.WIeIzn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201042544938

Необхідність виправляти спотворені рядки існує у багатьох галузях обробки природної мови. За наявності словника, який містить усі можливі вхідні слова, підхожим набором кандидатів для виправлення спотвореного уведення P є набір усіх слів у словнику, для яких відстань Левенштейна до Р не перевищує заданого (маленького) порога k. У статті описані методи ефективного відбору таких наборів кандидатів. Спочатку представлено базовий метод виправлення на основі концепції «універсального автомата Левенштейна», потім продемонстровано, як можна суттєво удосконалити базову процедуру, використовуючи два методи фільтрації, запозичені з області приблизного текстового пошуку. Перший метод, який використовує стандартні словники і словники з оберненими словами, забезпечує дуже швидке виправлення більшості видів вхідних рядків. Результати проведеного тестування свідчать, що час виправлення для порогів фіксованої величини залежить від очікуваної кількості кандидатів на виправлення, яка зменшується для довших вхідних слів. Вибір оптимального методу фільтрації також залежить від довжини вхідних слів.

Переклад А. Синящик

Cooper, M. A Mathematical Model of Historical Semantics and the Grouping of Word Meanings into Concepts [Математична модель історичної семантики і групування значень слова у концепти] / Martin C. Cooper // Computational linguistics. – 2005. – Vol. 31. – No. 2. – Pages 227–248. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201054223995#.WH4XyH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201054223995

Статистичний аналіз багатозначності на матеріалі шістнадцяти англійських і французьких словників виявив, що в кожному словнику кількість значень слова має майже експоненціальний розподіл. Представлена ймовірнісна модель історичної семантики, яка пояснює цей розподіл. Ця математична модель також слугує засобом визначення середньої кількості різних концептів для слова, яка виявилася значно меншою, ніж середня кількість вказаних у словнику значень слова. Групування значень слова у концепти ґрунтується на їх здатності породжувати однакові нові значення (шляхом метафори, метонімії тощо), тобто на їх потенційному майбутньому, а не на їхній історії.

Переклад О. Мартинюк, М. Погребної

O'Donovan, R. Large-Scale Induction and Evaluation of Lexical Resources from the Penn-II and Penn-III Treebanks [Широкомасштабне отримання і оцінювання лексичних ресурсів із банків дерев Penn-II і Penn-III] / Ruth O'Donovan, Michael Burke, Aoife Cahill, Josef van Genabith, Andy Way // Computational linguistics. – 2005. – Vol. 31. – No. 3. – Pр. 329–366. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120105774321073#.WH5_vn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120105774321073

Ми описуємо методику отримання фреймiв субкатегорізації на основі алгоритму автоматичного анотування f-структур у термінології лексико-функціональної граматики (lexical-functional grammar, скор. LFG) для банків дерев Penn-II і Penn-III. Ми отримуємо фрейми субкатегорізації на основі синтаксичних функцій (семантичні форми LFG) і традиційні фрейми субкатегорізації на основі категорій контекстно-вільної граматики, а також змішані фрейми на основі функцій/категорій, разом із інформацією про прийменники для непрямих відмінків і інформацією про прийменники або частки для фразових дієслів або без такої інформації. Наш метод пов’язує імовірності з фреймами відповідно до леми, розмежовує активні і пасивні фрейми і ретельно враховує результати розірваних залежностей у структурах вихідних даних. На відміну від багатьох інших методів, наш метод не визначає заздалегідь, які типи фреймів субкатегоризації будуть отримані, а дізнається про них із вихідних даних. Разом із частками і прийменниками ми отримали 21 005 типів фреймів лем для 4 362 лем дієслів, загальна кількість типів фреймів – 577, в середньому 4,8 типів фреймів для дієслова. Ми представляємо широкомасштабне оцінювання повного набору отриманих форм шляхом порівняння із укладеним вручну словником COMLEX. Наскільки нам відомо, це найбільше і найповніше оцінювання автоматично отриманих фреймів субкатегоризації для англійської мови.

Переклад І. Снєгурова

Miller, G. A. WordNet Nouns: Classes and Instances [Іменники у WordNet: класи і представники класів] / George A. Miller, Florentina Hristea // Computational linguistics. – 2006. – Vol. 32. – No. 1. – Pages 1–3. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.1.1#.WIUSWn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.1.1

У лексичній базі даних для англійської мови WordNet, яка достатньо активно використовується комп’ютерними лінгвістами, раніше не виокремлювались гіпоніми як класи і гіпоніми як представники класу. У статті описано спробу здійснити таке розмежування і запропоновано простий спосіб додати результати до майбутніх версій WordNet.

Переклад В. Коломієць

Budanitsky, A. Evaluating WordNet-based Measures of Lexical Semantic Relatedness [Оцінювання метрик лексико-семантичної спорідненості на основі WordNet] / Alexander Budanitsky, Graeme Hirst // Computational linguistics. – 2006. – Vol. 32. – No. 1. – Pages 13–47. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.1.13#.WH4YeH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.1.13

Квантифікация лексико-семантичної спорідненості широко застосовується у обробці природної мови і було запропоновано багато різних метрик. Нами оцінено п’ять із цих метрик, кожна з яких використовує у якості основного ресурсу WordNet, шляхом оцінки їх ефективності у виявленні і виправленні реальних орфографічних помилок. Було з’ясовано, що метрика на основі інформаційного змісту (Jiang-Conrath) дає кращі результати, ніж метрики Hirst-St-Onge, Leacock-Chodorow, Lin і Resnik. Крім того, пояснюється, чому дистрибутивна схожість не є адекватною заміною лексично-семантичній спорідненості.

Переклад В. Коломієць

Inkpen, D. Building and Using a Lexical Knowledge Base of Near-Synonym Differences [Створення і використання лексичної бази даних про розбіжності між неточними синонімами] / Diana Inkpen, Graeme Hirst // Computational linguistics. – 2006. – Vol. 32. – No. 2. – Pages 223–262. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.2.223#.WIUSp33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.2.223

   Неправильний вибір слова системою машинного перекладу або генерації природної мови може спричинити небажані конотації, імплікації або відношення. Вибір із сукупності неточних синонімів, таких як неточність, помилка, погрішність, і огріх (слів, які мають спільну частину значень, але відрізняються за деякими ознаками), можна зробити тільки за наявності інформації про відмінності між ними.
   У статті описано метод автоматичного створення нового різнoвиду лексичних ресурсів: базу даних про відмінності між неточними синонімами. Розроблено алгоритм неконтрольованого навчання списків рішень, який генерує правила видобування знань із спеціального словника відмінностей між синонімами. Ці правила потім були використані для видобування інформації з тексту словника.
   Після цього вихідна база даних була збагачена інформацією з інших машиночитаних словників. Інформація про сполучуваність неточних синонімів видобувалась із довільних текстів. Створена база даних була використана у системі генерації природної мови Xenon, було продемонстровано як можна використати новий лексичний ресурс для вибору неточного синоніма, який найкраще відповідає певній ситуації.

Переклад В. Коломієць

Li, P. A Sketch Algorithm for Estimating Two-Way and Multi-Way Associations [Алгоритм-ескіз для оцінки двосторонніх і багатосторонніх асоціацій] / Ping Li, Kenneth W. Church // Computational linguistics. – 2007. – Vol. 33. – No. 3. – Pages 305–354. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.3.305#.WH4a8H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.3.305

Немає потреби аналізувати увесь корпус (наприклад, Інтернет), щоб з’ясувати, чи існує тісна асоціація між двома (або більше) словами. Можна отримати оцінку асоційованості за допомогою невеликої вибірки. Розроблено алгоритм-ескіз, який створює таблиці спряженості для вибірки. Оцінка усіх даних таблиці спряженості може здійснюватися за допомогою простого масштабування. Проте можна поліпшити результати, скориставшись частотами документів. Запропонований метод удвічі зменшує кількість помилок у порівнянні з ескізами Бродера.

Переклад В. Коломієць

Fazly, A. Unsupervised Type and Token Identification of Idiomatic Expressions [Неконтрольоване розпізнавання ідіоматичних виразів на основі типів і вживань] / Afsaneh Fazly, Paul Cook, Suzanne Stevenson // Computational linguistics. – 2009. – Vol. 35. – No. 1. – Pages 61–103. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.08-010-R1-07-048#.WH4f933sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.08-010-R1-07-048

У розмовній мові велика кількість ідіоматичних виразів, проте вони залишаються загадкою, оскільки достовірно не відомо, як люди їх вивчають і розуміють. Вони особливо цікавлять лінгвістів, психолінгвістів і лексикографів, головним чином завдяки своїм синтаксичним і семантичним характеристикам, а також нечіткому лексичному статусу. Незважаючи на велику кількість досліджень характерних особливостей ідіом у лінгвістичній літературі, немає єдиної думки про те, які саме характеристики притаманні цим виразам. Через свої особливості ідіоматичні вирази здебільшого ігнорувалися комп’ютерними лінгвістами. У статті розглядається придатність деяких виявлених характеристик ідіом для автоматичного розпізнавання. Конкретніше, розроблено статистичні міри, кожна із яких моделює конкретну характеристику ідіоматичних виразів на основі особливостей їх реального вживання у тексті. Ці статистичні міри було використано у класифікації за типами, яка передбачала автоматичне розмежування ідіоматичних виразів (виразів із можливою ідіоматичною інтерпретацією) від схожих на них за формою буквальних виразів (ідіоматична інтерпретація яких є неможливою). Крім того, деякі міри використано у розпізнаванні слів, у процесі якого розмежовуються ідіоматичне і буквальне вживання потенційно ідіоматичних виразів у контексті.

Переклад В. Коломієць

Girju, R. The Syntax and Semantics of Prepositions in the Task of Automatic Interpretation of Nominal Phrases and Compounds: A Cross-Linguistic Study [Синтаксис і семантика прийменників у автоматичній інтерпретації іменних груп і складних слів: порівняльне дослідження] / Roxana Girju // Computational linguistics. – 2009. – Vol. 35. – No. 2. – Pages 185–228. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.06-77-prep13#.WH4ggH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.06-77-prep13

У статті досліджено синтаксичні і семантичні параметри прийменників у контексті семантичної інтерпретації іменних груп і складних слів. Дослідження проведене на основі багатомовних даних з набору з шести мов: англійської, іспанської, італійської, французької, португальської і румунської. Акцент на англійській мові і романських мовах добре вмотивований. Англійські іменні групи і складні слова здебільшого перекладаються конструкціями типу N P N (іменник прийменник іменник), у яких P (прийменник) може варіювати залежно від семантики. Таким чином, у статті описано емпіричне дослідження дистрибуції іменних груп і складних слів і дистрибуції їх значень у двох різних корпусах на основі двох наборів новітніх класифікаційних міток: набору із восьми прийменників Лауера і нашого списку 22 семантичних відносин. Також показано зв’язок між двома наборами міток. Крім того, за наявності тренувального набору англійських іменних груп і складних іменників і їх перекладів на п’ять романських мов, запропонований алгоритм автоматично визначає правила класифікації і застосовує їх до нових тестових даних для семантичної інтерпретації. Експериментальні результати порівнюються з результатами двох новітніх методів, описаних у літературі.

Переклад В. Коломієць

Zhitomirsky-Geffet, M. Bootstrapping Distributional Feature Vector Quality [Самоналаштування якості дистрибутивного вектора ознак] / Maayan Zhitomirsky-Geffet, Ido Dagan // Computational linguistics. – 2009. – Vol. 35. – No. 3. – Pages 435–461. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.08-032-R1-06-96#.WH4hTn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.08-032-R1-06-96

У статті описано новітній метод самоналаштування для підвищення якості оцінювання вектора ознак в умовах дистрибутивної схожості слів. Цей метод було створено завдяки спробам використати дистрибутивну схожість для визначення конкретних семантичних відносин лексичного слідування. Здійснений аналіз виявив, що основною причиною досить низького ступеня семантичної схожості, виявленої за допомогою методів дистрибутивної схожості, є недостатня якість векторів ознак слів, спричинена недосконалою оцінкою ознак. Завдяки цим даним було визначено алгоритм самоналаштування, який забезпечує вдосконалену оцінку ознак, а отже вищу якість векторів ознак. В основі запропонованого підходу лежить ідея, що ознаки, спільні для подібних слів, також є найхарактернішими для їх значень, а отже повинні бути активізовані. Ця ідея реалізована через етап самоналаштування, який було застосовано до вихідної стандартної апроксимації простору схожості. Висока ефективність методу самоналаштування оцінювалась у двох різних експериментах: на основі створеної вручну еталонної анотації і на основі автоматично створеного набору даних для зняття омонімії. Ці результати були потім підтверджені шляхом застосування новітнього квантитативного вимірювання якості вагових функцій ознак. Вдосконалена вагова функція також уможливлює масштабний відбір ознак, що означає, що найхарактерніші ознаки слова справді сконцентровані у верхніх рангах його вектора. Нарешті, експерименти з трьома значимими мірами схожості і двома ваговими функціями ознак показали, що схема самоналаштування є обгрунтованою і не залежить від вихідних функцій, до яких її застосовують.

Переклад В. Коломієць

Cook, P. Automatically Identifying the Source Words of Lexical Blends in English [Автоматичне визначення вихідних компонентів лексичних стягнень у англійській мові] / Paul Cook, Suzanne Stevenson // Computational linguistics. – 2010. – Vol. 36. – No. 1. – Pages 129-149. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2010.36.1.36104#.WH4h4H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2010.36.1.36104

Неологізми створюють проблеми для систем обробки природної мови, тому що їх немає у лексиконі системи, і як наслідок, відсутня лексична інформація про такі слова. Поширеним способом створення нових слів є лексичне стягнення, прикладом якого є cosmeceutical, стягнення слів cosmetic і pharmaceutical. У статті запропоновано статистичну модель для виведення вихідних компонентів лексичного стягнення на основі виявлених лінгвістичних характеристик стягнень. Ці характеристики переважно залежать від впізнаваності вихідних слів у стягненні. Було анотовано набір із 1186 неологізмів, який включав 515 стягнень, і здійснено тестування розроблених методів за допомогою частини набору із 324 одиниць. У цьому першому дослідженні нових стягнень точність визначення вихідних компонентів стягнення становила 40%, що відповідає зниженню частоти помилок на 39% понад відомим базовим рівнем. У статті також наведено попередні результати, які свідчать, що використані для ідентифікації вихідних компонентів характеристики можуть бути використані для розрізнення стягнень та інших типів неологізмів.

Переклад М. Андрєєва

Fengxiang, F. An Asymptotic Model for the English Hapax/Vocabulary Ratio [Асимптотична модель співвідношення гапакс/вокабулярій у англійській мові] / Fan Fengxiang // Computational linguistics. – 2010. – Vol. 36. – No. 4. – Pages 631–637. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00013#.WIHrgX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00013

У існуючій літературі зазначається, що приблизно 50% вокабулярію англійського тексту чи колекції текстів становлять гапакси. Подібна постійність дещо спантеличує. Для дослідження цього явища було використано Британський національний корпус, який містить 100 мільйонів слів. Результати свідчать, що співвідношення гапаксів і вокабулярію виглядає як U-подібна крива. Спочатку зі збільшенням обсягу тексту співвідношення гапакси/вокабулярій зменшується; однак після того, як обсяг тексту сягає близько трьох мільйонів слів, співвідношення гапакси/вокабулярій починає неухильно зростати. Комп’ютерне моделювання показує, що зі збільшенням обсягу тексту вищезгадане співвідношення може досягти 1.

Переклад А. Синящик

Boleda, G. Modeling Regular Polysemy: A Study on the Semantic Classification of Catalan Adjectives [Моделювання регулярної багатозначності: дослідження семантичної класифікації каталонських прикметників] / Gemma Boleda, Sabine Schulte im Walde, Toni Badia // Computational linguistics. – 2012. – Vol. 38. – No. 3. – Pages 575–616. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00093#.WH4j7X3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00093

У статті описано дослідження автоматичного визначення семантичних класів каталонских прикметників на основі дистрибуції і морфологічної інформації, з особливим акцентом на багатозначних прикметниках. Мета дослідження полягає у виділенні і описі широких класів, наприклад, якісних (gran "великий") і відносних (pulmonar "легеневий") прикметників, а також у виявленні багатозначних прикметників, таких як econòmic ("економічний | дешевий"). Безпесередньою метою є моделювання регулярної багатозначності, тобто типів чергування значень, які є спільними для всіх лем. Поки що і семантичні класи прикметників, і регулярна багатозначність рідко привертали увагу в емпіричній комп’ютерній лінгвістиці.
У статті розглядаються два основних конкретних питання. По-перше, якою є адекватна широка семантична класифікація прикметників? Наведено емпіричне обгрунтування якісного і відносного класів, визначених у теоретичних працях, і відкрито тип прикметників, якому не приділялось достатньо уваги, а саме, клас на позначення подій. По-друге, як з точки зору обчислень найкраще моделювати регулярну багатозначність? У статті описано дві моделі і стверджується, що і в теоретичному, і в емпіричному плані друга з них, яка моделює регулярну багатозначність у значенні одночасного членства у різних базових класах, є більш адекватною, ніж перша, яка намагаєтьс визначити незалежні багатозначні класи. Наш найкращий класифікатор досягає точності 69,1% у порівнянні із стандартом 51%.

Переклад М. Погребної

Peris, A. Empirical Methods for the Study of Denotation in Nominalizations in Spanish [Емпіричні методи дослідження денотації у номіналізаціях] / Aina Peris, Mariona Taulé, Horacio Rodríguez // Computational linguistics. – 2012. – Vol. 38. – No. 4. – Pages 827–865. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00112#.WH4kNn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00112

Стаття присвячена віддієслівним іменникам у іспанській мові, а саме денотативним відмінностям між номіналізаціями подій і результатів. Вона має дві цілі: по-перше, виявити найголовніші характеристики, потрібні для такого денотативного розрізнення і, по-друге, створити систему автоматичної класифікації віддієслівних іменників за їх денотацією. Дослідження базується на теоретичних гіпотезах, які стосуються цих семантичних відмінностей. Здійснено їх емпіричний аналіз за допомогою методів машинного навчання, які є основою класифікатора ADN-Classifier. Це перший інструмент, призначений для автоматичної класифікації віддієслівних іменників у іспанській мові на події, результати або недостатньо визначені типи. ADN-Classifier допоміг здійснити кількісну оцінку істинності наших тверджень стосовно віддієслівних іменників. Проведено серію експериментів для тестування ADN-Classifier за допомогою різних моделей і в різних реалістичних ситуаціях, які відрізнялися наявними ресурсами знань і програмами обробки природної мови. ADN-Classifier продемострував хороші результати (точність 87,20%).

Переклад В. Коломієць

Mohammad, S. M. Computing Lexical Contrast [Обчислення лексичного контрасту] / Saif M. Mohammad, Bonnie J. Dorr, Graeme Hirst, Peter D. Turney // Computational linguistics. – 2013. – Vol. 39. – No. 3. – Pages 555–590. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00143#.WH4lUH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00143

Знання ступеня семантичного контрасту між словами широко застосовується у обробці природної мови, зокрема машинному перекладі, видобуванні інформації і діалогових системах. Створені вручну лексикони містять антоніми, такі як гарячий і холодний. Антоніми бувають різних видів, наприклад антиподні, комплементарні і ті, що градуюються. Проте існуючі лексикони рідко класифікують антоніми на різні типи. Вони також не містять пар слів, які не є антонімами, але в тій чи іншій мірі є протилежними за значенням, таких як теплий і холодний або тропічний і морозний. У статті запропоновано автоматичний метод ідентифікації протилежних в тій чи іншій мірі пар слів, який базується на припущенні, що якщо пара слів, А і Б, є в тій чи іншій мірі протилежними за значенням, то існує така пара антонімів, В і Г, у якій В є тісно пов’язаним із А, а Г є тісно пов’язаним із Б. (Наприклад, існує пара антонімів гарячий і холодний, і тропічний пов’язаний із гарячим, а морозний пов’язаний із холодним.) Це називається припущенням протилежності.
Спочатку за допомогою масштабного інтернет-артельного експерименту було визначено ступінь згоди між людьми щодо поняття антонімії і її різновидів. Потім описано автоматичну і емпіричну міру лексичного контрасту, яка базується на припущенні протилежності, корпусній статистиці і структурі тезаурусу типу Роже. Показано, як за допомогою чотирьох різних наборів даних здійснено оцінювання нашого методу на двох різних завданнях: вирішенні питань про найбільш контрастуюче слово і розрізнення синонімів і антонімів. Результати аналізувалися по чотирьом частинам мови і п’яти різним видам антонімів. Показано, що запропонована міра лексичного контрасту перевершує існуючі методи, дозволяючи досягти високої точності і широкої покриваючої здатності.

Переклад В. Коломієць

Velardi, P. OntoLearn Reloaded: A Graph-Based Algorithm for Taxonomy Induction [OntoLearn Reloaded: алгоритм на основі графа для генерації таксономії] / Paola Velardi, Stefano Faralli, Roberto Navigli // Computational linguistics. – 2013. – Vol. 39. – No. 3. – Pages 665–707. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00146#.WIUd5n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00146

У 2004 році в цьому журналі була опублікована наша стаття з описом OntoLearn, однієї з перших систем для автоматичної генерації таксономії з документів і веб-сайтів. З того часу наша група продовжувала активні дослідження системи OntoLearn, яка стала довідником для дослідників. У цій статті описано оновлений метод генерації таксономії, який називається OntoLearn Reloaded. На відміну від методів генерації таксономії, описаних у літературі, наш новий алгоритм генерує концепти і відношення повністю з нуля шляхом автоматичного видобування термінів, визначень і гіперонімів. Результатом є дуже густий, циклічний і потенційно незв’язаний граф гіперонімів. Потім алгоритм генерує з цього графа таксономію шляхом оптимального галуження і нової процедури зважування. Виконані експерименти свідчать про отримання високоякісних результатів як під час створення зовсім нових таксономій, так і під час реконструювання гілок ієрархій існуючих таксономій.

Переклад В. Коломієць

Li, L. Improved Estimation of Entropy for Evaluation of Word Sense Induction [Удосконалена оцінка ентропії для оцінювання виведення значень слів] / Linlin Li, Ivan Titov, Caroline Sporleder // Computational linguistics. – 2014. – Vol. 40. – No. 3. – Pages 671–685. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00196#.WH4miX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00196

Теоретико-інформаційні підходи є найтиповішими способами оцінки методів кластерного аналізу, зокрема систем виведення значень слів (англ. word sense induction, скор. WSI). Такі підходи базуються на статистичних оцінках ентропії. Проте стандартна оцінка методом максимальної вірогідності є дуже упередженою і упередженість залежить, поміж іншого, від числа кластерів і розміру вибірки. Через це вказані підходи є ненадійними і необ’єктивними у випадках, коли різні системи створюють різну кількість кластерів, а обсяг вибірки не є занадто великим. А це якраз повністю відповідає умовам оцінки WSI, за яких експериментально визначеної кількості значень у кластері не існує, а типовий сценарій оцінювання передбачає використання невеликої кількості вживань кожного слова для обчислення кількісних показників. У статті описано точніші алгоритми оцінювання ентропії і проаналізовано їхню продуктивність як у моделюванні, так і в оцінці систем WSI .

Переклад В. Коломієць

Gao, D. Cross-lingual Sentiment Lexicon Learning With Bilingual Word Graph Label Propagation [Автоматичне створення двомовного словника емоційно-оціночної лексики шляхом використання двомовного маркування графів слів] / Dehong Gao, Furu Wei, Wenjie Li, Xiaohua Liu, Ming Zhou // Computational linguistics. – 2015. – Vol. 41. – No. 1. – Pages 20–40. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00207 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00207

У статті розглядається завдання автоматичного створення двомовного словника емоційно-оціночної лексики, що має на меті автоматичне генерування словників емоційно-оціночної лексики для цільових мов за допомогою наявних англомовних словників емоційно-оціночної лексики. Завдання формалізовано як проблему машинного навчання на двомовному графі слів, на якому коректно репрезентовані внутрішньомовні зв’язки між словами однієї мови та міжмовні зв’язки між словами у різних мовах. Розглядаючи слова англомовного емоційно-оціночного лексикону як вихідні, запропоновано метод використання розмітки двомовного графу слів з метою визначення полярності нерозмічених оціночних слів у цільовій мові. Зокрема, показано, що для побудови внутрішньомовного відношення можуть бути використані як синонімічні, так і антонімічні зв’язки між словами, а також, що для побудови міжмовних зв’язків може бути успішно використана інформація про вирівнювання слів, одержана з двомовних паралельних речень. Оцінка автоматичного створення словника емоційно-оціночної лексики китайської мови показує, що запропонований підхід перевершує існуючі підходи і за точністю, і за повнотою. Експерименти на матеріалі набору даних проекта NTCIR також підтверджують ефективність автоматично згенерованого словника емоційно-оціночної лексики у класифікації емотивності на рівні речень.

Переклад М. Дубка

Irvine A. A Comprehensive Analysis of Bilingual Lexicon Induction [Комплексний аналіз виведення двомовного словника] / Ann Irvine, Chris Callison-Burch // Computational linguistics. – 2017. – Vol. 43. – No. 2. – Pages 273–310. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00284 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00284

Завдання виведення двомовного словника передбачає виведення перекладів слів з одномовних корпусів двома мовами. У статті представлено найповніший на сьогодні аналіз створення двомовного словника. Проведено експерименти на широкому спектрі мов та різних обсягах даних. Проаналізовано англійські переклади з 25 іноземних мов: албанської, азербайджанської, бенгальської, боснійської, болгарської, себуанської, гуджараті, гінді, угорської, індонезійської, латвійської, непальської, румунської, сербської, словацької, сомалійської, іспанської, шведської, тамільської, телегу, турецької, української, узбецької, в’єтнамської та уельської. Особливості виведення двомовного словника проаналізовано не лише на високочастотних словах, як робили попередні дослідники, а й на низькочастотних словах. Низькочастотні слова більш важливі для систем статистичного машинного перекладу, в яких, як правило, відсутні переклади рідко вживаних слів, яких бракує в їх навчальних даних. Здійснено систематичний аналіз широкого спектру особливостей та явищ, які впливають на якість перекладів, отриманих шляхом виведення двомовного словника. Наведено ілюстративні приклади найкращих перекладів для ортогональних показників еквівалентності перекладів, таких як контекстна та темпоральна схожість. Проаналізовано впливи частотності та нерівномірності даних, обсяги початкових двомовних словників та одномовних навчальних корпусів. Крім того, введено новий дискримінаційний підхід до виведення двомовного словника. Ця дискримінаційна модель здатна поєднувати в собі різноманітні характеристики, які поодинці є лише слабкими ознаками еквівалентності перекладів. Коли вагові коефіцієнти ознак встановлюються дискримінаційно, ці сигнали забезпечують переклади значно вищої якості, ніж попередні підходи, які поєднували сигнали без учителя (наприклад, використовуючи мінімальний інвертований ранг). Також, здійснено пряме порівняння продуктивності запропонованого методу з передовим генеративним підходом – алгоритмом аналізу відповідностей канонічних кореляцій (АВКК), який використовує Хаґіґі та ін. (Haghighi et al., 2008). Точність запропонованого алгоритму досягає 42% на відміну від 15% точності АВКК.

Переклад А. Шульги