Автоматичний морфологічний аналіз

Ofazer, K. Bootstrapping Morphological Analyzers by Combining Human Elicitation and Machine Learning [Створення морфологічних аналізаторів шляхом поєднання опитування інформантів і машинного навчання] / Kemal Ofazer, Sergei Nirenburg, Marjorie McShane // Computational linguistics. – 2001. – Vol. 27. – No. 1. – Pages 59–85. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101300346804#.WH3oYn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101300346804

У статті описано напівавтоматичний спосіб створення скінченних морфологічних аналізаторів із широким охопленням для використання в системах опрацювання природної мови. Він складається з трьох компонентів – отримання лінгвістичної інформації від інформантів, алгоритму створення аналізатора за допомогою машинного навчання й середовища для тестування. Ці три компоненти застосовуються ітеративно, аж поки якість виведення досягне порогової величини. Вперше цей спосіб застосовано для аналізу морфології мов із обмеженими лінгвістичними ресурсами в рамках проекту-експедиції в лабораторії комп’ютерних досліджень університету штату Нью-Мексико. При цьому способі опитування-створення-тестування з отриманої від інформанта лексичної та флективної інформації укладається лексикон скінченного перетворювача, який поєднується із послідовністю морфографемних правил переписування, видобутою з отриманих прикладів за допомогою навчання на основі трансформацій. Потім за допомогою комплекту тестів здійснюється тестування створеного морфологічного аналізатора й усі виправлення вводяться до алгоритму навчання, після чого створюється удосконалений аналізатор.

Переклад В. Коломієць

Goldsmith, J. Unsupervised Learning of the Morphology of a Natural Language [Навчання морфології природної мови без учителя] / John Goldsmith // Computational linguistics. – 2001. – Vol. 27. – No. 2. – Pages 153–198. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101750300490#.WH3xu33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101750300490

У статті повідомляються результати використання аналізу на основі мінімальної довжини опису (МДО) для моделювання навчання морфологічної сегментації європейських мов без учителя за допомогою корпусів обсягом від 5000 до 500000 слів. Розроблено набір евристичних правил, які швидко створюють вірогіднісну морфологічну граматику, і в якості основного інструмента для визначення, чи будуть прийняті запропоновані евристичними правилами модифікації, використано МДО. Створена граматика добре узгоджується з аналізом, який здійснив би фахівець із морфології.
У заключному розділі обговорюється зв'язок цього типу граматичного аналізу на основі МДО з поняттям оціночної метрики у ранніх версіях породжувальної граматики.

Переклад К. Погорєлова

van Halteren, H. Improving Accuracy in Word Class Tagging through the Combination of Machine Learning Systems [Підвищення точності частиномовної розмітки шляхом об’єднання систем машинного навчання] / Hans van Halteren, Jakub Zavrel, Walter Daelemans // Computational linguistics. – 2001. – Vol. 27. – No. 2. – Pages 199–229. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101750300508#.WH3yEH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101750300508
http://www.mitpressjournals.org/doi/pdf/10.1162/089120101750300508

   Проаналізовано, як можна використати відмінності між мовними моделями, автоматично створеними різними керованими даними системами при виконанні однакових завдань опрацювання природної мови, для того щоб одержати вищу точність, ніж у найкращої окремої системи. Це зроблено за допомогою експериментів, які включали завдання морфосинтаксичної розмітки частин мови, на основі трьох різних розмічених корпусів. Чотири добре відомі генератори розмічувачів (прихована Марківська модель, на основі пам'яті, правила трансформації та максимальна ентропія) тренувались на однакових корпусних даних. Після порівняння їхні вихідні дані було об'єднано за допомогою кількох стратегій вибору й класифікаторів другого рівня. Всі комбіновані розмічувачі перевершили свої найкращі компоненти. Зменшення кількості помилок залежало від корпусу, але досягало 24,3% при використанні корпусу Ланкастер-Осло-Берген.

Переклад К. Погорєлова

Lee, G. G. Syllable-Pattern-Based Unknown-Morpheme Segmentation and Estimation for Hybrid Part-of-Speech Tagging of Korean [Сегментування і оцінювання нерозпізнаних морфем на основі моделі складу для гібридного частиномовного анотування корейської мови] / Gary Geunbae Lee, Jeongwon Cha, Jong-Hyeok Lee // Computational linguistics. – 2002. – Vol. 28. – No. 1. – Pages 53–70. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102317341774#.WH3yhX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102317341774

Нерозпізнані морфеми є причиною більшості помилок у морфологічному аналізі та частиномовній розмітці корейської мови. У статті представлено узагальнений метод оцінювання нерозпізнаних морфем на основі моделі складу за допомогою гібридної статистичної системи частиномовної розмітки на основі правил POSTAG (POStech TAGger)*. Цей метод угадування нерозпізнаних морфем базується на поєднанні словника моделей морфем, у якому представлено загальні лексичні моделі корейських морфем, з апостеріорною оцінкою складів триграм. Склади триграми допомагають вирахувати лексичні вірогідності нерозпізнаних морфем і вживаються для пошуку найкращого результату розмітки. За допомогою цього методу можна передбачити частиномовні теги нерозпізнаних морфем незалежно від їхньої кількості та/або позицій у eojeol (корейська мовна одиниця подібна до слова в англійській мові), чого не можна зробити за допомогою інших систем розмітки корейської мови. У низці експериментів із трьома різними корпусами розроблена система досягла точності розмітки 97%, хоча 10% морфем у тестових корпусах були нерозпізнаними. Система також показала дуже високу повноту охоплення і точність оцінювання усіх класів нерозпізнаних морфем.
*Бінарний код системи POSTAG знаходиться у вільному доступі для досліджень і оцінювання на веб-сторінці http://nlp.postech.ac.kr/. Перейдіть за посиланням OpenResources→DownLoad.

Переклад І. Снєгурова

Cohen-Sygal, Y. Finite-State Registered Automata for Non-Concatenative Morphology [Скінченні регістрові автомати для розпізнавання неконкатенативної морфології] / Yael Cohen-Sygal, Shuly Wintner // Computational linguistics. – 2006. – Vol. 32. – No. 1. – Pages 49–82. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.1.49#.WH3y433sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.1.49

У статті розглядаються скінченні регістрові автомати для розпізнавання (СРАР), нові комп’ютерні засоби, які є різновидами скінченних автоматів для розпізнавання, спеціально пристосованими для реалізації неконкатенативних морфологічних процесів. Ця модель є розширенням наявних скінченних автоматів для розпізнавання, ще не оптимізованих для опису такого виду явищ. У статті спочатку подано означення моделі та описано її математичні й обчислювальні характеристики. Потім подано розширену регулярну мову, виразами якої позначені СРАР. Нарешті, наведено декілька прикладів складних морфологічних і фонологічних явищ, майстерно реалізованих за допомогою СPАP, для того щоб показати переваги моделі.

Переклад В. Коломієць

Daya, E. Identifying Semitic Roots: Machine Learning with Linguistic Constraints [Визначення коренів у семітських мовах: машинне навчання з використанням лінгвістичних правил] / Ezra Daya, Dan Roth, Shuly Wintner // Computational linguistics. – 2008. – Vol. 34. – No. 3. – Pages 429–448. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.07-002-R1-06-30#.WH3zUn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.07-002-R1-06-30

Слова в семітських мовах утворюються шляхом поєднання двох морфем – кореня й моделі. Корінь складається тільки з приголосних, як правило трьох, а модель є комбінацією голосних і приголосних, перемішаних із "пазами", в які вставляються кореневі приголосні. Визначення кореня заданого слова – важливе завдання, яке вважається обов’язковим компонентом морфологічного аналізу семітських мов; а інформація про корені потрібна як для лінгвістичних досліджень, так і для розв'язання практичних завдань. У статті описано застосування машинного навчання, вдосконаленого невеликим набором правил, у визначенні коренів слів у семітських мовах. Хоча існують прикладні програми, які можуть виокремлювати корені слів в арабській мові та ідишу, всі вони передбачають трудомісткий процес створення великих лексиконів, які є компонентами повномасштабних морфологічних аналізаторів. Перевага нашого методу полягає в автоматизації цього процесу, оминанні затримки, спричиненої необхідністю забарного укладання списків коренів і моделей всіх лексем у мові. Наскільки нам відомо, це перше застосування машинного навчання у розв’язанні цієї проблеми та одна з небагатьох спроб звернутися безпосередньо до неконкатенативної морфології, використовуючи машинне навчання. Загалом, отримані результати пролили світло на проблему об’єднання класифікаторів за наявності (лінгвістичних) правил.

Переклад В. Коломієць

Baldwin, T. Prepositions in Applications: A Survey and Introduction to the Special Issue [Прийменники у прикладних програмах: загальний огляд і вступ до спеціального випуску] / Timothy Baldwin, Valia Kordoni, Aline Villavicencio // Computational linguistics. – 2009. – Vol. 35. – No. 2. – Pages 119–149. – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.2.119

Стаття містить загальний огляд досліджень прийменників і їхнього використання у прикладних програмах для опрацювання природної мови. Коротко описано синтаксис прийменників і його значимість для прикладних програм для опрацювання природної мови, при цьому особливу увагу приділено приєднанню прийменникових груп і прийменникам у багатослівних виразах. Розглянуто формальні та лексико-семантичні характеристики прийменників і їхню значимість для прикладних програм для опрацювання природної мови, описано окремі прикладні дослідження, в яких прийменникам приділяється значна увага. Коротко викладено зміст статей, вміщених у спеціальному випуску журналу, й визначено напрями досліджень прийменників, для проведення яких настав час.

Переклад В. Коломієць

Hammarström, H. Unsupervised Learning of Morphology [Навчання морфології без учителя] / Harald Hammarström, Lars Borin // Computational linguistics. – 2011. – Vol. 37. – No. 2. – Pages 309–350. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00050#.WH3z1n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00050

Стаття містить огляд досліджень навчання морфології без учителя. За визначенням авторів, навчання морфології без учителя є питанням породження опису (будь-якого, навіть якщо це тільки поділ на морфеми) будови орфографічних слів на основі лише необроблених текстових даних певною мовою. Коротко викладено історію й актуальність проблеми. Потім перераховано та стисло схарактеризовано більше 200 досліджень, критично проаналізовано найважливіші ідеї в цій галузі. Підсумовано наявні досягнення і вказано напрями подальших розвідок.

Переклад В. Коломієць

Ruokolainen T. A Comparative Study of Minimally Supervised Morphological Segmentation [Порівняльне дослідження морфологічного сегментування методом часткового навчання з учителем] / Teemu Ruokolainen , Oskar Kohonen , Kairit Sirts , Stig-Arne Grönroos , Mikko Kurimo, Sami Virpioja // Computational linguistics. – 2016. – Vol. 42. – No. 1. – Pages 91–120. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00243 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00243

У статті представлено порівняльне дослідження однієї з галузей автоматизованого морфологічного аналізу – морфологічного сегментування методом часткового навчання з учителем. У морфологічному сегментуванні словоформи діляться на морфи, матеріальну реалізацію морфем. У керованому даними напівавтоматичному навчанні, система вчиться здійснювати сегментування за допомогою невеликої кількості словоформ, маркованих екпертами, та великого набору немаркованих словоформ. На додаток до огляду літератури, присвяченої опублікованим методам, у статті представлено докладне емпіричне порівняння трьох різних видів моделей, а також детальний аналіз помилок. Спираючись на огляд літератури, було зроблено висновок про те, що існуючі методи значною мірою спираються на генеративні підходи на основі морфемного лексикону та методи на основі диференціального визначення меж. Що стосується більш успішного з двох підходів, як попередні дослідження, так і представлене у статті емпіричне оцінювання дають підстави вважати, що сучасні досягнення є результатом застосування методики диференціального визначення меж.

Переклад А. Шульги

Sun, W. Towards Accurate and Efficient Chinese Part-of-Speech Tagging [На шляху до ефективної частиномовної розмітки китайської мови] / Weiwei Sun, Xiaojun Wan // Computational linguistics. – 2016. – Vol. 42. – No. 3. – Pages 391–419. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00253 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00253

За допомогою методів структурної лінгвістики досліджено парадигматичні та синтагматичні відношення між словами для автоматичної частиномовної розмітки китайської мови, важливого, але складного завдання автоматичного опрацювання китайської мови. Парадигматичні відношення між словами напряму визначаються шляхом кластеризації слів на базі великих нерозмічених корпусів і використовуються для створення нових правил для вдосконалення диференціального розмітника. Синтагматичні відношення між словами імпліцитно ідентифікуються шляхом автоматичного синтаксичного аналізу на основі граматики складників і використовуються шляхом об’єднання системи. Експерименти на базі корпусу Penn Chinese Treebank свідчать про важливість як парадигматичних, так і синтагматичних відношень. Завдяки запропонованим лінгвістично орієнтованим, гібридним підходам вдалося досягти відносного зменьшення помилок на 18% у порівнянні з сучасними базовими показниками. Незважаючи на ефективне підвищення точності, використання гібридних систем є недоцільним для багатьох практичних застосувань опрацювання природної мови через високу вартість обчислень. У статті також розглядається проблема підвищення ефективності маркування під час тестування. Зокрема, проаналізовано немарковані дані з метою передачі прогностичної здатності гібридних моделей моделям простих послідовностей. Точніше кажучи, гібридні системи використовуються для створення масштабних псевдотренувальних даних для дешевих моделей. Експериментальні результати свідчать, що створені заново моделі не тільки досягають вищої точності у класифікації окремих слововживань, але також слугують прекрасним зовнішнім інтерфейсом для аналізатора.

Переклад М. Дубка