Yamamoto, M. Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus [Використання списків суфіксів для обчислення частоти термінів і частоти документів у всіх підрядках корпусу] / Mikio Yamamoto, Kenneth W. Church // Computational linguistics. – 2001. – Vol. 27. – No. 1. – Pages 1–30. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101300346787#.WIHkXn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101300346787
У статистичній обробці природної мови звичайно використовуються біграми і триграми; у статті описано методи обробки значно довших n-грамів. Списки суфіксів (Manber, U. and Myers, G., 1990) були спочатку створені для того, щоб обчислити частотність та розташування підрядка (n-грама) у послідовності (корпусі) довжиною N. Для обчислення частот усіх N(N+1)/2 підрядків у корпусі, підрядки були згруповані у прийнятну кількість класів еквівалентності. Таким чином забороняюче обчислення підрядків було скорочене до практичного обчислення класів. У статті описано як алгоритм, так і програму, які використовувались для обчислення частотності термінів (term frequency, скор. tf) і частотності документів (document frequency, скор. df) для усіх n-грамів у двох великих корпусах, 50-мільйонному англійському корпусі текстів з газети Wall Street Journal обсягом 50 мільйонів слів і японському корпусі текстів з газети Mainichi Shimbun обсягом 216 мільйонів ієрогліфів.
У другій частині статті ці частоти використано для знаходження «цікавих» підрядків. Лексикографів цікавили n-грами з високим рівнем спільної інформації (СП), у яких об’єднана частота термінів є вищою за випадкову, за умови що частини n-граму об’єднані незалежно. Остаточна зворотна частота документу (ОЗЧД) порівнює частоту документу з іншою випадковою моделлю, у якій терміни з певною частотою розподілені по всій колекції у випадковому порядку. СП, як правило, відбирає словосполучення з некомпозиційною семантикою (що часто порушує припущення про незалежність), у той час як ОЗЧД зазвичай виявляє технічну термінологію, імена і ключові слова, придатні для видобування інформації (яка, зазвичай, має невипадковий розподіл у документах). Комбінація СП і ОЗЧД дає кращі результати, ніж будь-яка окрема складова, у виокремленні японських слів.
У статистичній обробці природної мови звичайно використовуються біграми і триграми; у статті описано методи обробки значно довших n-грамів. Списки суфіксів (Manber, U. and Myers, G., 1990) були спочатку створені для того, щоб обчислити частотність та розташування підрядка (n-грама) у послідовності (корпусі) довжиною N. Для обчислення частот усіх N(N+1)/2 підрядків у корпусі, підрядки були згруповані у прийнятну кількість класів еквівалентності. Таким чином забороняюче обчислення підрядків було скорочене до практичного обчислення класів. У статті описано як алгоритм, так і програму, які використовувались для обчислення частотності термінів (term frequency, скор. tf) і частотності документів (document frequency, скор. df) для усіх n-грамів у двох великих корпусах, 50-мільйонному англійському корпусі текстів з газети Wall Street Journal обсягом 50 мільйонів слів і японському корпусі текстів з газети Mainichi Shimbun обсягом 216 мільйонів ієрогліфів.
У другій частині статті ці частоти використано для знаходження «цікавих» підрядків. Лексикографів цікавили n-грами з високим рівнем спільної інформації (СП), у яких об’єднана частота термінів є вищою за випадкову, за умови що частини n-граму об’єднані незалежно. Остаточна зворотна частота документу (ОЗЧД) порівнює частоту документу з іншою випадковою моделлю, у якій терміни з певною частотою розподілені по всій колекції у випадковому порядку. СП, як правило, відбирає словосполучення з некомпозиційною семантикою (що часто порушує припущення про незалежність), у той час як ОЗЧД зазвичай виявляє технічну термінологію, імена і ключові слова, придатні для видобування інформації (яка, зазвичай, має невипадковий розподіл у документах). Комбінація СП і ОЗЧД дає кращі результати, ніж будь-яка окрема складова, у виокремленні японських слів.
Переклад В. Коломієць
Kilgarriff, A. Introduction to the Special Issue on the Web as Corpus [Вступне слово до спеціального випуску, присвяченого Всесвітній мережі як корпусу текстів] / Adam Kilgarriff, Gregory Grefenstette // Computational linguistics. – 2003. – Vol. 29. – No. 3. – Pages 333–347. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322711569#.VStSk1ChGCA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322711569
Всесвітня мережа, завдяки величезній кількості найрізноманітніших лінгвістичних даних на різних мовах у вільному доступі, є омріяним поприщем для лінгвістів. У цьому спеціальному випуску журналу «Комп'ютерна лінгвістика» розглядаються шляхи дослідження цієї мрії.
Всесвітня мережа, завдяки величезній кількості найрізноманітніших лінгвістичних даних на різних мовах у вільному доступі, є омріяним поприщем для лінгвістів. У цьому спеціальному випуску журналу «Комп'ютерна лінгвістика» розглядаються шляхи дослідження цієї мрії.
Переклад В. Туз
Resnik, P. The Web as a Parallel Corpus [Інтернет як паралельний корпус] / Philip Resnik, Noah A. Smith // Computational linguistics. – 2003. – Vol. 29. – No. 3. – Pages 349–380. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322711578#.VStTRVChGCA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322711578
Паралельні корпуси стали невід’ємним ресурсом у роботі в галузі багатомовної обробки природної мови. У цій статті доповідається про досвід використання системи STRAND для знаходження паралельних текстів у Всесвітній мережі. Спочатку розглядаються вихідний алгоритм та результати, а потім представляється низка важливих удосконалень. Ці вдосконалення включають використання контрольованого тренування на основі структурних особливостей документів з метою покращення результатів класифікації, новий критерій перекладацької еквівалентності, який базується на змісті, та адаптацію системи для користування Архівом Інтернету для широкомасштабного пошуку паралельних текстів із Всесвітньої мережі. На завершення демонструється корисність цих методів у створенні великого паралельного корпусу для мовної пари з обмеженою кількістю електронних ресурсів.
Паралельні корпуси стали невід’ємним ресурсом у роботі в галузі багатомовної обробки природної мови. У цій статті доповідається про досвід використання системи STRAND для знаходження паралельних текстів у Всесвітній мережі. Спочатку розглядаються вихідний алгоритм та результати, а потім представляється низка важливих удосконалень. Ці вдосконалення включають використання контрольованого тренування на основі структурних особливостей документів з метою покращення результатів класифікації, новий критерій перекладацької еквівалентності, який базується на змісті, та адаптацію системи для користування Архівом Інтернету для широкомасштабного пошуку паралельних текстів із Всесвітньої мережі. На завершення демонструється корисність цих методів у створенні великого паралельного корпусу для мовної пари з обмеженою кількістю електронних ресурсів.
Переклад Д. Попової
Keller, F. Using the Web to Obtain Frequencies for Unseen Bigrams [Використання Всесвітньої мережі для отримання частот прихованих біграм] / Frank Keller, Mirella Lapata // Computational linguistics. – 2003. – Vol. 29. – No. 3. – Pages 459–484. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120103322711604#.VStUoVChGCA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120103322711604
У цій статті продемонстровано, що Всесвітню мережу можна використовувати для отримання частот біграм, невидимих у певному корпусі. Ми описуємо метод отримання підрахунків для біграм прикметника-іменника, іменника-іменника та дієслова-додатка із Всесвітньої мережі за допомогою запиту у пошуковій системі. Ми оцінюємо цей метод, демонструючи: (а) високу кореляцію частот у Всесвітній мережі та в корпусі; (б) достовірний кореляційний зв’язок між частотами у Всесвітній мережі та оцінками достовірності; (в) достовірний кореляційний зв’язок між частотами у Всесвітній мережі та частотами, відтвореними за допомогою згладжування на основі класів; (г) високу ефективність частот, характерних для Всесвітньої мережі, при пробному знятті багатозначності.
У цій статті продемонстровано, що Всесвітню мережу можна використовувати для отримання частот біграм, невидимих у певному корпусі. Ми описуємо метод отримання підрахунків для біграм прикметника-іменника, іменника-іменника та дієслова-додатка із Всесвітньої мережі за допомогою запиту у пошуковій системі. Ми оцінюємо цей метод, демонструючи: (а) високу кореляцію частот у Всесвітній мережі та в корпусі; (б) достовірний кореляційний зв’язок між частотами у Всесвітній мережі та оцінками достовірності; (в) достовірний кореляційний зв’язок між частотами у Всесвітній мережі та частотами, відтвореними за допомогою згладжування на основі класів; (г) високу ефективність частот, характерних для Всесвітньої мережі, при пробному знятті багатозначності.
Переклад Д. Попової
Fais, L. Inferable Centers, Centering Transitions, and the Notion of Coherence [Вивідні центри, центровані переходи і поняття когерентності] / Laurel Fais // Computational linguistics. – 2003. – Vol. 30. – No. 2. – Pages 119–150. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104323093267#.WIHn0n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104323093267
Виконане на основі теорії центрування дослідження корпусу японських електронних листів, яке аналізується у статті, значною мірою спирається на урахування вивідних центрів. Проте використання цього різновиду центрів призводить до високого ступеня неоднозначності у розмітці переходів і, як наслідок, у характеристиці когерентності корпусу. Складність полягає у вимозі ідентифікації референтів дискурсу у дефініціях перехідних станів. Замість висновків, підказаних використанням вивідних центрів, пропонується лексична когезія як цілком кокретне і усталене поняття. Два нові переходи, основані на лексичній спорідненості, а не на ідентичності, доповнюють стандартні визначення і більш адекватно характеризують когерентність цього корпусу. Проаналізовано наслідки і перспективи висунутої пропозиції.
Виконане на основі теорії центрування дослідження корпусу японських електронних листів, яке аналізується у статті, значною мірою спирається на урахування вивідних центрів. Проте використання цього різновиду центрів призводить до високого ступеня неоднозначності у розмітці переходів і, як наслідок, у характеристиці когерентності корпусу. Складність полягає у вимозі ідентифікації референтів дискурсу у дефініціях перехідних станів. Замість висновків, підказаних використанням вивідних центрів, пропонується лексична когезія як цілком кокретне і усталене поняття. Два нові переходи, основані на лексичній спорідненості, а не на ідентичності, доповнюють стандартні визначення і більш адекватно характеризують когерентність цього корпусу. Проаналізовано наслідки і перспективи висунутої пропозиції.
Переклад В. Коломієць
Palmer, M. The Proposition Bank: An Annotated Corpus of Semantic Roles [Банк пропозицій: анотований корпус семантичних ролей] / Martha Palmer , Daniel Gildea , Paul Kingsbury // Computational linguistics. – 2005. – Vol. 31. – No. 1. – Pages 71–106. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201053630264#.WIHoPH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201053630264
У проекті Банк пропозицій застосовується практичний підхід до семантичного представлення, який додає до синтаксичних структур із корпусу Penn Treebank шар інформації про аргументи предикатів або мітки семантичних ролей. Створений ресурс можна уважати поверхневим, оскільки у ньому не представлені кореференція, квантифікація і багато інших явищ вищого порядку, але також всеосяжним, оскільки він ураховує кожне вживання кожного дієслова у корпусі і дозволяє отримувати репрезентативні статистичні дані.
Обговорено критерії, які використовуються для визначення наборів семантичних ролей, які використовуються у процесі розмітки і для аналізу частоти синтаксичних/синтаксичних чергувань у корпусі. Описано автоматичну систему розмітки семантичних ролей, навчену на корпусних даних, і проаналізовано вплив на її продуктивність різних типів інформації, зокрема порівняння повного синтаксичного розбору із лінійним зображенням і роль пустих категорій («слідів») банку синтаксичних дерев.
У проекті Банк пропозицій застосовується практичний підхід до семантичного представлення, який додає до синтаксичних структур із корпусу Penn Treebank шар інформації про аргументи предикатів або мітки семантичних ролей. Створений ресурс можна уважати поверхневим, оскільки у ньому не представлені кореференція, квантифікація і багато інших явищ вищого порядку, але також всеосяжним, оскільки він ураховує кожне вживання кожного дієслова у корпусі і дозволяє отримувати репрезентативні статистичні дані.
Обговорено критерії, які використовуються для визначення наборів семантичних ролей, які використовуються у процесі розмітки і для аналізу частоти синтаксичних/синтаксичних чергувань у корпусі. Описано автоматичну систему розмітки семантичних ролей, навчену на корпусних даних, і проаналізовано вплив на її продуктивність різних типів інформації, зокрема порівняння повного синтаксичного розбору із лінійним зображенням і роль пустих категорій («слідів») банку синтаксичних дерев.
Переклад В. Коломієць
Ringlstetter, C. Orthographic Errors in Web Pages: Toward Cleaner Web Corpora [Орфографічні помилки на веб-сторінках: на шляху до зменшення кількості помилок у веб-корпусах] / Christoph Ringlstetter, Klaus U. Schulz, Stoyan Mihov // Computational linguistics. – 2006. – Vol. 32. – No. 3. – Pages 295–340. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.3.295#.VStQ_lChGCA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.3.295
Оскільки Всесвітня мережа безумовно є найбільшим публічним сховищем текстів природною мовою, сучасні експерименти, методи та інструменти в галузі корпусної лінгвістики часто використовують Інтернет як корпус. Для забезпечення роботи прикладних програм, для яких відсутність помилок має критичне значення, потрібно впоратися із проблемою великої кількості орфографічних і граматичних помилок у веб-документах. У цій статті ми досліджуємо розподіл різних типів орфографічних помилок на веб-сторінках. Як побічний продукт розробляються методи для ефективного виявлення сторінок із помилками та для маркування орфографічних помилок у прийнятних веб-документах, зменшуючи, таким чином, кількість помилок у корпусах та базах лінгвістичних знань, які автоматично вилучаються з Інтернету.
Оскільки Всесвітня мережа безумовно є найбільшим публічним сховищем текстів природною мовою, сучасні експерименти, методи та інструменти в галузі корпусної лінгвістики часто використовують Інтернет як корпус. Для забезпечення роботи прикладних програм, для яких відсутність помилок має критичне значення, потрібно впоратися із проблемою великої кількості орфографічних і граматичних помилок у веб-документах. У цій статті ми досліджуємо розподіл різних типів орфографічних помилок на веб-сторінках. Як побічний продукт розробляються методи для ефективного виявлення сторінок із помилками та для маркування орфографічних помилок у прийнятних веб-документах, зменшуючи, таким чином, кількість помилок у корпусах та базах лінгвістичних знань, які автоматично вилучаються з Інтернету.
Переклад Д. Попової
Hockenmaier, J. CCGbank: A Corpus of CCG Derivations and Dependency Structures Extracted from the Penn Treebank [Корпус дериватів і структур залежностей, видобутих з корпусу Penn Treebank на основі ККГ] / Julia Hockenmaier, Mark Steedman // Computational linguistics. – 2007. – Vol. 33. – No. 3. – Pages 355–396. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.3.355#.WIHpyn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.3.355
У статті описано алгоритм перетворення корпусу Penn Treebank у корпус дериватів комбінаторної категоріальної граматики (ККГ), доповнений суміжними і віддаленими залежностями слів. Отриманий корпус, ККГбанк, включає 99,4% речень з корпусу Penn Treebank. Доступ до корпусу, який використовується для тренування широкозахватних статистичних парсерів з сучасним рівнем визначення залежностей надає Консорціум лінгвістичних даних.
Для отримання лингвістично достовірних результатів досліджень на основі ККГ і видалення невідповідностей у вихідному анотуванні знадобились детальний аналіз конструкцій і анотування у корпусі Penn Treebank і велика кількість виправлень у корпусі Treebank. У статті аналізується вплив результатів дослідження на видобування інших лінгвістично виразних граматик з корпусу Treebank і на структуру майбутніх банків синтаксичних дерев.
У статті описано алгоритм перетворення корпусу Penn Treebank у корпус дериватів комбінаторної категоріальної граматики (ККГ), доповнений суміжними і віддаленими залежностями слів. Отриманий корпус, ККГбанк, включає 99,4% речень з корпусу Penn Treebank. Доступ до корпусу, який використовується для тренування широкозахватних статистичних парсерів з сучасним рівнем визначення залежностей надає Консорціум лінгвістичних даних.
Для отримання лингвістично достовірних результатів досліджень на основі ККГ і видалення невідповідностей у вихідному анотуванні знадобились детальний аналіз конструкцій і анотування у корпусі Penn Treebank і велика кількість виправлень у корпусі Treebank. У статті аналізується вплив результатів дослідження на видобування інших лінгвістично виразних граматик з корпусу Treebank і на структуру майбутніх банків синтаксичних дерев.
Переклад В. Коломієць
Cohn, T. Constructing Corpora for the Development and Evaluation of Paraphrase Systems [Укладання корпусів для розробки і оцінки систем перефразування] / Trevor Cohn, Chris Callison-Burch, Mirella Lapata // Computational linguistics. – 2008. – Vol. 34. – No. 4. – Pages 597–614. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.08-003-R1-07-044#.WIHqpX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.08-003-R1-07-044
Важливим компонентом багатьох завдань обробки природної мови є автоматичне перефразування. У статті описано новий паралельний корпус із розміткою перефразувань. У дослідженні використовується визначення перефразування на основі вирівнювання слів. Показано, що воно дозволяє досягти високої міри узгодженості між анотаторами. Оскільки коефіцієнт каппа призначений для номінальних даних, у дослідженні використано альтернативний критерій узгодженості, прийнятний для структурованих завдань вирівнювання. Проаналізовано шляхи ефективного використання корпусу у автоматичному оцінюванні перефразування (наприклад, шляхом визначення точності, повноти і F1), а також у розробці лінгвістично багатих моделей перефразування на основі синтаксичної структури.
Важливим компонентом багатьох завдань обробки природної мови є автоматичне перефразування. У статті описано новий паралельний корпус із розміткою перефразувань. У дослідженні використовується визначення перефразування на основі вирівнювання слів. Показано, що воно дозволяє досягти високої міри узгодженості між анотаторами. Оскільки коефіцієнт каппа призначений для номінальних даних, у дослідженні використано альтернативний критерій узгодженості, прийнятний для структурованих завдань вирівнювання. Проаналізовано шляхи ефективного використання корпусу у автоматичному оцінюванні перефразування (наприклад, шляхом визначення точності, повноти і F1), а також у розробці лінгвістично багатих моделей перефразування на основі синтаксичної структури.
Переклад В. Коломієць
Marom, Y. An Empirical Study of Corpus-Based Response Automation Methods for an E-mail-Based Help-Desk Domain [Емпіричне вивчення корпусних методів автоматизації відповіді для домену електронної служби технічної підтримки] / Yuval Marom, Ingrid Zukerman // Computational linguistics. – 2009. – Vol. 35. – No. 4. – Pages 597–635. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2009.35.4.35404#.WIHrA33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35404
У даній статті описано дослідження корпусних методів автоматизації відповідей електронної служби технічної підтримки. Точніше кажучи, ми досліджуємо два практичні аспекти цієї проблеми: (1) пошук інформації та (2) рівень деталізації інформації. Ми розглядаємо застосування двох методів збору інформації (вивід та передбачення) до інформації, представленої на двох рівнях деталізації (на рівні тексту та на рівні речення). До методів текстового рівня належить повторне використання наявного електронного листа-відповіді для відповіді на нові запити. Методи на рівні речення включають використання методів екстрактивного багатотекстового реферування з метою поєднання інформаційних блоків більше ніж з одного електронного листа. Оцінка ефективності різних методів показує, що при поєднанні вони здатні успішно автоматизувати створення відповідей для значної частини запитів електронною поштою у нашому корпусі. Ми також досліджуємо процес метапідбору, який навчається обирати один метод для обробки нового запиту електронною поштою, забезпечуючи, таким чином, єдине вирішення питання автоматизації відповідей.
У даній статті описано дослідження корпусних методів автоматизації відповідей електронної служби технічної підтримки. Точніше кажучи, ми досліджуємо два практичні аспекти цієї проблеми: (1) пошук інформації та (2) рівень деталізації інформації. Ми розглядаємо застосування двох методів збору інформації (вивід та передбачення) до інформації, представленої на двох рівнях деталізації (на рівні тексту та на рівні речення). До методів текстового рівня належить повторне використання наявного електронного листа-відповіді для відповіді на нові запити. Методи на рівні речення включають використання методів екстрактивного багатотекстового реферування з метою поєднання інформаційних блоків більше ніж з одного електронного листа. Оцінка ефективності різних методів показує, що при поєднанні вони здатні успішно автоматизувати створення відповідей для значної частини запитів електронною поштою у нашому корпусі. Ми також досліджуємо процес метапідбору, який навчається обирати один метод для обробки нового запиту електронною поштою, забезпечуючи, таким чином, єдине вирішення питання автоматизації відповідей.
Переклад Д. Попової, М. Погребної
Zaidan, O. F. Arabic Dialect Identification [Розпізнавання діалектів арабської мови] / Omar F. Zaidan, Chris Callison-Burch // Computational linguistics. – 2014. – Vol. 40. – No. 1. – Pages 171–202. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00169#.WIHzlH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00169
Письмова форма арабської мови, сучасна стандартна арабська мова (Modern Standard Arabic, скор. MSA), значно відрізняється від різних розмовних регіональних діалектів арабської мови – справжніх «рідних мов» носіїв арабської мови. Ці діалекти у свою чергу дуже відрізняються один від одного. Проте, оскільки письмові тексти переважно пишуться стандартною арабською мовою, майже всі корпуси арабської мови складаються переважно з текстів на стандарній арабській мові. У статті описано створення новітнього ресурсу арабської мови з анотуванням діалектів. Створено великий одномовний корпус під назвою Анотований онлайн-корпус арабської мови (O. F. Zaidan and C. Callison-Burch, 2011), який містить велику кількість текстів на арабських діалектах. Описано спробу анотування, метою якого було розпізнавання діалектизмів (і самого діалекту) у кожному з понад 100 000 речень у корпусі, виконану шляхом краудсорсингу, і проаналізовано цікаві варіанти поведінки анотаторів (наприклад, переважне розпізнавання їх власних діалектів). Цей новий анотований корпус було використано для розпізнавання арабських діалектів − визначення діалекту, на якому написано речення, на основі особливостей послідовності слів у ньому. Корпусні дані було використано для навчання і оцінки автоматичних класифікаторів для визначення діалектів і було встановлено, що класифікатори, які використовують діалектні дані, значно перевершують контрольні результати, отримані за допомогою даних виключно стандартною арабською мовою, і демонструють точність визначення, близьку до експертної. Нарешті, створені класифікатори були використані для пошуку діалектних даних у результатах масштабного інтернет-пошуку, які складалися з 3,5 мільйонів сторінок, видобутих із електронних арабських газет.
Письмова форма арабської мови, сучасна стандартна арабська мова (Modern Standard Arabic, скор. MSA), значно відрізняється від різних розмовних регіональних діалектів арабської мови – справжніх «рідних мов» носіїв арабської мови. Ці діалекти у свою чергу дуже відрізняються один від одного. Проте, оскільки письмові тексти переважно пишуться стандартною арабською мовою, майже всі корпуси арабської мови складаються переважно з текстів на стандарній арабській мові. У статті описано створення новітнього ресурсу арабської мови з анотуванням діалектів. Створено великий одномовний корпус під назвою Анотований онлайн-корпус арабської мови (O. F. Zaidan and C. Callison-Burch, 2011), який містить велику кількість текстів на арабських діалектах. Описано спробу анотування, метою якого було розпізнавання діалектизмів (і самого діалекту) у кожному з понад 100 000 речень у корпусі, виконану шляхом краудсорсингу, і проаналізовано цікаві варіанти поведінки анотаторів (наприклад, переважне розпізнавання їх власних діалектів). Цей новий анотований корпус було використано для розпізнавання арабських діалектів − визначення діалекту, на якому написано речення, на основі особливостей послідовності слів у ньому. Корпусні дані було використано для навчання і оцінки автоматичних класифікаторів для визначення діалектів і було встановлено, що класифікатори, які використовують діалектні дані, значно перевершують контрольні результати, отримані за допомогою даних виключно стандартною арабською мовою, і демонструють точність визначення, близьку до експертної. Нарешті, створені класифікатори були використані для пошуку діалектних даних у результатах масштабного інтернет-пошуку, які складалися з 3,5 мільйонів сторінок, видобутих із електронних арабських газет.
Переклад В. Коломієць
Tsvetkov, Y. Identification of Multiword Expressions by Combining Multiple Linguistic Information Sources [Знаходження багатослівних словосполучень шляхом комбінування різних джерел лінгвістичної інформації] / Yulia Tsvetkov, Shuly Wintner // Computational linguistics. – 2014. – Vol. 40. – No. 2. – Pages 449–468. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00177#.WIHsen3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00177
У статті сформульовано загальні принципи використання різних джерел лінгвістичної інформації з метою знаходження багатослівних словосполучень в текстах природною мовою. Визначено різні лінгвістично обгрунтовані класифікаційні ознаки і запропоновано нові методи їх обчислення. Потім вручну визначено взаємозв’язки між цими ознаками і представлено їх у вигляді Байесовій мережі. В результаті отримано потужний класифікатор, який може знаходити багатослівні словосполучення різних типів і різні синтаксичні конструкції у корпусах текстів. Запропонований метод є неконтрольованим і незалежним від мови, він потребує відносно мало лінгвістичних ресурсів і завдяки цьому підходить для великої кількості мов. Наведено результати для англійської, французької та ідиш і продемонстровано значне підвищення точності знаходження словосполучень у порівнянні з вихідними даними меншої складності.
У статті сформульовано загальні принципи використання різних джерел лінгвістичної інформації з метою знаходження багатослівних словосполучень в текстах природною мовою. Визначено різні лінгвістично обгрунтовані класифікаційні ознаки і запропоновано нові методи їх обчислення. Потім вручну визначено взаємозв’язки між цими ознаками і представлено їх у вигляді Байесовій мережі. В результаті отримано потужний класифікатор, який може знаходити багатослівні словосполучення різних типів і різні синтаксичні конструкції у корпусах текстів. Запропонований метод є неконтрольованим і незалежним від мови, він потребує відносно мало лінгвістичних ресурсів і завдяки цьому підходить для великої кількості мов. Наведено результати для англійської, французької та ідиш і продемонстровано значне підвищення точності знаходження словосполучень у порівнянні з вихідними даними меншої складності.
Переклад В. Коломієць
Marimon, M. Automatic Selection of HPSG-Parsed Sentences for Treebank Construction [Автоматичний відбір синтаксичних дерев, створених аналізатором на основі граматики HPSG, для побудови банку дерев] / Montserrat Marimon, Núria Bel, Lluís Padró // Computational linguistics. – 2014. – Vol. 40. – No. 3. – Pages 523–531. – Режим доступу до анотації http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00190#.WH6Mxn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00190
У статті описується комплексний підхід до визначення і відбору синтаксичних дерев високої якості за допомогою створеної вручну HPSG граматики для іспанської мови, втіленої у системі створення лінгвістичних знань. У даному підході використовується повне узгодження (тобто точне синтаксичне співпадіння) разом із алгоритмом вибору дерева розбору і синтаксичним аналізатором на основі дерев залежності, навченим на тих самих даних. Головна мета полягає у створенні гібридної методики розмітки корпусу, яка є комбінацією виключно автоматичної розмітки і ручного відбору дерев розбору, з метою підвищення ефективності анотування і одночасно підтримання високої якості та узгодженості, необхідних для будь-якого з передбачених застосувань банку синтаксичних дерев.
У статті описується комплексний підхід до визначення і відбору синтаксичних дерев високої якості за допомогою створеної вручну HPSG граматики для іспанської мови, втіленої у системі створення лінгвістичних знань. У даному підході використовується повне узгодження (тобто точне синтаксичне співпадіння) разом із алгоритмом вибору дерева розбору і синтаксичним аналізатором на основі дерев залежності, навченим на тих самих даних. Головна мета полягає у створенні гібридної методики розмітки корпусу, яка є комбінацією виключно автоматичної розмітки і ручного відбору дерев розбору, з метою підвищення ефективності анотування і одночасно підтримання високої якості та узгодженості, необхідних для будь-якого з передбачених застосувань банку синтаксичних дерев.
Переклад В. Коломієць
Prasad, R. Reflections on the Penn Discourse TreeBank, Comparable Corpora, and Complementary Annotation [Декілька міркувань про корпус Penn Discourse TreeBank, порівняльні корпуси та додаткове анотування] / Rashmi Prasad, Bonnie Webber, Aravind Joshi // Computational linguistics. – 2014. – Vol. 40. – No. 4. – Pages 921–950. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00204#.VStPVFChGCA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdfplus/10.1162/COLI_a_00204
Корпус Penn Discourse Treebank (PDTB) став загальнодоступним у 2008 році. Він і досі залишається найбільшим анотованим вручну корпусом риторичної структури дискурсу. Використана в корпусі розмітка риторичної структури, яка виражена певними лексичними засобами дискурсивної зв’язності або асоціюється із суміжністю речень, не тільки полегшила його використання у прикладній лінгвістиці та психолінгвістиці, а й сприяла анотуванню порівняльних корпусів інших мов і жанрів.
У зв’язку з цим наша стаття переслідує чотири цілі: (1) надати вичерпну інформацію про PDTB для тих, хто про нього не знає; (2) виправити деякі помилкові (чи, можливо, легковажні) припущення щодо PDTB та його анотування, які могли знизити вагомість отриманих результатів чи пригальмувати виконання процедур прийняття рішень, підказаних даними; (3) пояснити розбіжності в анотуванні порівняльних ресурсів у інших мовах і жанрах, які повинні допомогти розробникам майбутніх порівняльних корпусів зрозуміти, чи мають ці розбіжності значення; і (4) перелічити і пояснити відношення між анотуванням PDTB та додатковим анотуванням інших мовних явищ. В статті використано дослідження, як наші, так і інших дослідників, виконані після появи корпусу.
Корпус Penn Discourse Treebank (PDTB) став загальнодоступним у 2008 році. Він і досі залишається найбільшим анотованим вручну корпусом риторичної структури дискурсу. Використана в корпусі розмітка риторичної структури, яка виражена певними лексичними засобами дискурсивної зв’язності або асоціюється із суміжністю речень, не тільки полегшила його використання у прикладній лінгвістиці та психолінгвістиці, а й сприяла анотуванню порівняльних корпусів інших мов і жанрів.
У зв’язку з цим наша стаття переслідує чотири цілі: (1) надати вичерпну інформацію про PDTB для тих, хто про нього не знає; (2) виправити деякі помилкові (чи, можливо, легковажні) припущення щодо PDTB та його анотування, які могли знизити вагомість отриманих результатів чи пригальмувати виконання процедур прийняття рішень, підказаних даними; (3) пояснити розбіжності в анотуванні порівняльних ресурсів у інших мовах і жанрах, які повинні допомогти розробникам майбутніх порівняльних корпусів зрозуміти, чи мають ці розбіжності значення; і (4) перелічити і пояснити відношення між анотуванням PDTB та додатковим анотуванням інших мовних явищ. В статті використано дослідження, як наші, так і інших дослідників, виконані після появи корпусу.
Переклад Д. Попової
Gimenes P. Spelling Error Patterns in Brazilian Portuguese [Розподіл орфографічних помилок у бразильському варіанті португальської мови] / Priscila A. Gimenes, Norton T. Roman, Ariadne M. B. R. Carvalho // Computational linguistics. – 2015. – Vol. 41. – No. 1. – Pages 175–183. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00216 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00216
Статистика розподілу помилок у друкованих текстах, виведена Дамерау п’ятдесят років тому, і досі використовується у великій кількості різних мов. Оскільки ці статистичні дані були отримані з текстів англійською мовою, було порушено питання про те, чи можна їх застосувати до інших мов. У статті це питання розв’язується шляхом аналізу набору друкованих текстів бразильською португальською і виведення статистики саме для цієї мови. Результати показують, що важливу роль відіграють діакритичні знаки, про що свідчить частота помилок, пов'язаних із ними. Тому первинні висновки Дамерау є здебільшого непридатними для систем перевірки орфографії, хоча й можуть бути корисними, якщо не зважати на діакритичні знаки. Крім того, порівняння цих результатів із опублікованими результатами для іспанської мови не виявило статистично значущих відмінностей між двома мовами. Це означає, що розподіл орфографічних помилок залежить від прийнятого набору символів, а не від самої мови.
Статистика розподілу помилок у друкованих текстах, виведена Дамерау п’ятдесят років тому, і досі використовується у великій кількості різних мов. Оскільки ці статистичні дані були отримані з текстів англійською мовою, було порушено питання про те, чи можна їх застосувати до інших мов. У статті це питання розв’язується шляхом аналізу набору друкованих текстів бразильською португальською і виведення статистики саме для цієї мови. Результати показують, що важливу роль відіграють діакритичні знаки, про що свідчить частота помилок, пов'язаних із ними. Тому первинні висновки Дамерау є здебільшого непридатними для систем перевірки орфографії, хоча й можуть бути корисними, якщо не зважати на діакритичні знаки. Крім того, порівняння цих результатів із опублікованими результатами для іспанської мови не виявило статистично значущих відмінностей між двома мовами. Це означає, що розподіл орфографічних помилок залежить від прийнятого набору символів, а не від самої мови.
Переклад А. Шульги
Barbot N. Large Linguistic Corpus Reduction with SCP Algorithms [Скорочення великих лінгвістичних корпусів за допомогою алгоритмів ЗМП] / Nelly Barbot, Olivier Boëffard, Jonathan Chevelu and Arnaud Delhay // Computational linguistics. – 2015. – Vol. 41. – No. 3. – Pages 355–383. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00225 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00225
Розбудова лінгвістичного корпусу є важливим завданням у створенні великих розмічених корпусів, необхідних для створення різних видів додатків. Наприклад, такі технології усного мовлення, як автоматичне розпізнавання або синтез мовлення потребують величезної кількості мовних даних навчання моделей на основі даних або для синтезу мовлення. Збір даних завжди пов’язаний із витратами (запис мовлення, перевірка поміток тощо), і, як правило, чим більше даних зібрано, тим дорожчим є додаток. В цьому контексті у статті описано способи скорочення обсягу текстових корпусів із збереженням достатнього рівня мовного різноманіття, необхідного для моделі або додатку. Ця проблема може бути формалізована як завдання покриття множини (ЗПМ). У статті оцінюються дві алгоритмічні дослідницькі установки, які застосовувались для розробки великих корпусів текстів англійської та французької мов для пошуку фонологічної інформації або частиномовного розмічування. Перший розглянутий алгоритм є стандартним, «жадібним» рішенням з агломеруючою стратегією, а автори пропонують другий алгоритм на основі релаксації Лагранжа. Другий підхід передбачає нижчий рівень витрат для кожної розв’язаної проблеми. Цей рівень можна використати як метрику для оцінки якості скороченого корпусу незалежно від застосованого алгоритму. Експерименти показують, що умовно оптимальний алгоритм, подібний до «жадібного», дає хороші результати; вартість його рішень близька до нижнього рівня (близько 4.35% для трифонемних рішень). Зазвичай обмеження в ЗПМ бінарні, але у статті запропоновано узагальнення, в якому обмеження на кожну використану категорію можуть бути багатоелементними.
Розбудова лінгвістичного корпусу є важливим завданням у створенні великих розмічених корпусів, необхідних для створення різних видів додатків. Наприклад, такі технології усного мовлення, як автоматичне розпізнавання або синтез мовлення потребують величезної кількості мовних даних навчання моделей на основі даних або для синтезу мовлення. Збір даних завжди пов’язаний із витратами (запис мовлення, перевірка поміток тощо), і, як правило, чим більше даних зібрано, тим дорожчим є додаток. В цьому контексті у статті описано способи скорочення обсягу текстових корпусів із збереженням достатнього рівня мовного різноманіття, необхідного для моделі або додатку. Ця проблема може бути формалізована як завдання покриття множини (ЗПМ). У статті оцінюються дві алгоритмічні дослідницькі установки, які застосовувались для розробки великих корпусів текстів англійської та французької мов для пошуку фонологічної інформації або частиномовного розмічування. Перший розглянутий алгоритм є стандартним, «жадібним» рішенням з агломеруючою стратегією, а автори пропонують другий алгоритм на основі релаксації Лагранжа. Другий підхід передбачає нижчий рівень витрат для кожної розв’язаної проблеми. Цей рівень можна використати як метрику для оцінки якості скороченого корпусу незалежно від застосованого алгоритму. Експерименти показують, що умовно оптимальний алгоритм, подібний до «жадібного», дає хороші результати; вартість його рішень близька до нижнього рівня (близько 4.35% для трифонемних рішень). Зазвичай обмеження в ЗПМ бінарні, але у статті запропоновано узагальнення, в якому обмеження на кожну використану категорію можуть бути багатоелементними.
Переклад А. Шульги
Ling, W. Mining Parallel Corpora from Sina Weibo and Twitter [Видобування паралельних корпусів з мікроблогів Sina Weibo та Twitter]/ Wang Ling, Luís Marujo, Chris Dyer, Alan W. Black, Isabel Trancoso // Computational linguistics. – 2016. – Vol. 42. – No. 2. – Pages 307–343. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00249 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00249
Мікроблоги, наприклад Twitter, Facebook і Sina Weibo (китайський еквівалент Twitter), є неабияким лінгвістичним ресурсом. На відміну від текстів жанрів, які редагуються, таких як стрічка новин, мікроблоги містять різностильові обговорення практично будь-якої теми великою кількістю людей різними мовами і діалектами. У статті показано, що деякі користувачі мікроблогів публікують "самостійно перекладені" повідомлення, призначені для читачів, які розмовляють іншими мовами, створюючи один і той же запис кількома мовами або повторно публікуючи переклади оригінальних записів іншою мовою. У статті представлено метод пошуку та видобування таких природних паралельних даних. Для вирішення проблеми вирівнювання, якого вимагає пошук паралельних текстів, запропоновано високоефективний алгоритм динамічного програмування. Застосувавши цей метод, було отримано приблизно три мільйони паралельних сегментів китайською і англійською мовами з мікроблогу Sina Weibo шляхом цільового моніторингу користувачів Weibo, які роблять записи кількома мовами. Крім цього, з довільної вибірки записів у Twitter було отримано великий обсяг паралельних даних для різних мовних пар. Оцінювання проведено шляхом оцінки точності запропонованого методу видобування даних по відношенню до ручного маркування, а також з точки зору корисності в якості тренувальних даних для китайсько-англійської системи машинного перекладу. На відміну від традиційних ресурсів паралельних даних автоматично видобуті паралельні дані забезпечують значне покращення якості перекладу записів у мікроблогах і незначні покращення перекладу відредагованих текстів новин.
Мікроблоги, наприклад Twitter, Facebook і Sina Weibo (китайський еквівалент Twitter), є неабияким лінгвістичним ресурсом. На відміну від текстів жанрів, які редагуються, таких як стрічка новин, мікроблоги містять різностильові обговорення практично будь-якої теми великою кількістю людей різними мовами і діалектами. У статті показано, що деякі користувачі мікроблогів публікують "самостійно перекладені" повідомлення, призначені для читачів, які розмовляють іншими мовами, створюючи один і той же запис кількома мовами або повторно публікуючи переклади оригінальних записів іншою мовою. У статті представлено метод пошуку та видобування таких природних паралельних даних. Для вирішення проблеми вирівнювання, якого вимагає пошук паралельних текстів, запропоновано високоефективний алгоритм динамічного програмування. Застосувавши цей метод, було отримано приблизно три мільйони паралельних сегментів китайською і англійською мовами з мікроблогу Sina Weibo шляхом цільового моніторингу користувачів Weibo, які роблять записи кількома мовами. Крім цього, з довільної вибірки записів у Twitter було отримано великий обсяг паралельних даних для різних мовних пар. Оцінювання проведено шляхом оцінки точності запропонованого методу видобування даних по відношенню до ручного маркування, а також з точки зору корисності в якості тренувальних даних для китайсько-англійської системи машинного перекладу. На відміну від традиційних ресурсів паралельних даних автоматично видобуті паралельні дані забезпечують значне покращення якості перекладу записів у мікроблогах і незначні покращення перекладу відредагованих текстів новин.
Переклад М. Дубка