Сегментування тексту

Teahan, W. J. A Compression-based Algorithm for Chinese Word Segmentation [Алгоритм для сегментування китайських текстів на слова на основі стиснення] / W. J. Teahan, Yingying Wen, Rodger McNab, Ian H. Witten // Computational linguistics. – 2000. – Vol. 26. – No. 3. – Pages 375–393. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561746#.WIEqvn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561746

У китайському письмі немає пробілів або інших розмежувань слів. Хоча текст можна уважати відповідною послідовністю слів, є багато проблем у встановленні меж. Тлумачення тексту як послідовності слів корисне для певних завдань інформаційного пошуку та збереження даних, наприклад повнотекстового пошуку, стиснення текстів на основі слів, та виокремлення ключових фраз. У статті описується алгоритм виведення правильного розміщення меж слова за допомогою стандартної для стиснення текстів адаптивної мовної моделі. Алгоритм навчається на корпусі попередньо сегментованого тексту, і при застосуванні до нового тексту вставляє межі слова так, щоб максимально збільшити отримане стиснення. Цей простий і загальний метод добре працює у спеціальних алгоритмах сегментування китайської мови.

Переклад О. Мартинюк

Venkataraman, A. A Statistical Model for Word Discovery in Transcribed Speech [Статистична модель встановлення меж слів у транскрибованому мовленні] / Anand Venkataraman // Computational linguistics. – 2001. – Vol. 27. – No. 3. – Pages 351–372. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101317066113#.WIEGq33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101317066113

Представлено статистичну модель сегментування і встановлення меж слів у потоці мовлення. Описано поетапний неконтрольований алгоритм навчання для встановлення меж слів на основі цієї моделі. Також наведено результати емпіричних перевірок, які свідчать, що цей алгоритм може конкурувати з іншими моделями, які використовувались для подібних завдань.

Переклад В. Коломієць

Pevzner, L. A Critique and Improvement of an Evaluation Metric for Text Segmentation [Критичний аналіз і вдосконалення метрики оцінювання сегментування тексту] / Lev Pevzner, Marti A. Hearst // Computational linguistics. – 2002. – Vol. 28. – No. 1. – Pages 19–36. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102317341756#.WH4VbX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102317341756

Метрика оцінки Pk, вперше запропонована Бееферманом, Бергером і Лафферті у 1997 році, стає стандартною мірою оцінювання алгоритмів сегментування тексту. Однак, теоретичний аналіз метрики виявив декілька проблем: метрика звертає більше уваги на пропущені, ніж хибно визначені межі, надає забагато значення незначним помилкам і залежить від варіювання розподілу розміру сегментів. Для вирішення вказаних проблем запропонована проста модифікація метрики Pk. Нова метрика, яка називається Window Diff, пересуває по тексту вікно фіксованого розміру і щоразу, коли кількість меж у вікні не співпадає з дійсною кількістю меж для того вікна з текстом, фіксує помилку алгоритму.

Переклад І. Снєгурова

Mikheev, A. Periods, Capitalized Words, etc. [Крапки, слова з великої літери тощо] / Andrei Mikheev // Computational linguistics. – 2002. – Vol. 28. – No. 3. – Pages 289–318. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120102760275992#.WIE2eH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760275992

У статті описано підхід до вирішення трьох важливих проблем нормалізації тексту: виявлення меж речення, зняття багатозначності слів, написаних з великих літер, у позиціях, де очікується велика літера, та ідентифікація скорочень. На відміну від двох популярних методів обчислювальної статистики і написання спеціалізованих граматик, наш тексто-орієнтований підхід враховує промовисті локальні контексти і повторення окремих слів у межах документа. Цей метод не втрачає ефективності при зміні тематики та появі нової лексики і за продуктивістю не поступається найкращим опублікованим результатам. Після вбудовування у морфологічний аналізатор він допоміг значно знизити рівень помилок у обробці слів з великої літери і встановленні меж речень. Досліджено можливість застосування методу для інших мов і отримано обнадійливі результати.

Переклад К. Погорєлова

Feng, H. Accessor Variety Criteria for Chinese Word Extraction [Критерії варіативності засобів доступу для встановлення меж китайських слів] / Haodi Feng, Kang Chen, Xiaotie Deng, Weimin Zheng // Computational linguistics. – 2003. – Vol. 30. – No. 1. – Pages 75–93. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104773633394#.WIE3Mn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104773633394

Стаття присвячена проблемі встановлення меж слів у китайських корпусах. Під словом розуміється послідовність кількох китайських ієрогліфів, яка несе певне значення. Наприклад, з точки зору деяких людей «відсоток» і «більше і більше» не є традиційними китайськими словами. Проте у даному дослідженні вони є словами, тому що широко вживаються і мають конкретні значення. Ми виходимо з того, що слово є самостійною мовною одиницею, яку можна використовувати у багатьох різних мовних середовищах. Ми уважаємо ієрогліфи, які знаходяться безпосередньо перед послідовністю (попередники), і ієрогліфи, які знаходяться безпосередньо після послідовності (наступники), важливими факторами для визначення незалежного характеру послідовності. Ми назвали такі ієрогліфи засобами доступу до послідовності, проаналізували кількість окремих попередників і наступників послідовності у великому корпусі (документи TREC 5 і TREC 6) і використали їх для визначення контекстуальної незалежності послідовності від решти речень у документі. Проведені експерименти підтвердили нашу гіпотезу і показали, що це просте правило дає хороші результати у встановленні меж китайських слів і не поступається іншим ітеративним методам, а для довгих слів навіть перевершує їх.

Переклад В. Коломієць

Gao, J. Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach [Сегментування китайських текстів на слова і розпізнавання власних назв: прагматичний підхід] / Jianfeng Gao, Mu Li, Chang-Ning Huang, Andi Wu // Computational linguistics. – 2005. – Vol. 31. – No. 4. – Pages 531–574. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120105775299177#.WIE4q33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120105775299177

У статті описано прагматичний підхід до встановлення меж китайських слів. Він відрізняється від попередніх підходів у основному в трьох аспектах. По-перше, хоча у теоретичній лінгвістиці китайські слова визначені за допомогою різних лінгвістичних критеріїв, у даному дослідженні китайські слова визначаються прагматично як одиниці сегментування, визначення яких залежить від способів їх використання і обробки у реальних комп’ютерних додатках. По-друге, запропоновано прагматичний математичний підхід, у якому встановлення меж відомих слів і виявлення невідомих слів різних типів (наприклад, слів, утворених морфологічними способами, чисел і адрес, власних назв та інших відсутніх у списку слів) може здійснюватися одночасно у єдиному форматі. У інших системах ці завдання звичайно виконуються окремо. Нарешті, ми не допускаємо існування універсального стандарту встановлення меж слів, який не залежить від додатку. Навпаки, через той прагматичний факт, що різні додатки для обробки природної мови можуть використовувати різні характеристики китайських слів, ми наголошуємо на необхідності багатьох стандартів сегментування.
Ці прагматичні підходи були втілені у детально описаному адаптивному сегментаторі китайських текстів під назвою MSRSeg. Він складається з двох компонентів: 1) універсального сегментатора на основі лінійних змішаних моделей, який забезпечує єдиний підхід до п’яти основних функцій обробки китайської мови на рівні слів: обробки слів лексикону, морфологічного аналізу, виявлення чисел і адрес, розпізнавання власних назв та ідентифікації нових слів, і 2) набору адаптерів виведення, для адаптації виведення універсального сегментатора до стандартів для різних додатків. Оцінка за допомогою п’яти тестових наборів з різними стандартами показала, що адаптивна система відповідає сучасним вимогам на усіх тестових наборах.

Переклад В. Коломієць

Bestgen, Y. Improving Text Segmentation Using Latent Semantic Analysis: A Reanalysis of Choi, Wiemer-Hastings, and Moore (2001) [Удосконалення сегментування тексту за допомогою латентного семантичного аналізу: повторний аналіз статті Ф. Чой, П. Вімер-Гастінгс і Д. Мур [Choi, Wiemer-Hastings, and Moore, 2001] / Yves Bestgen // Computational linguistics. – 2006. – Vol. 32. – No. 1. – Pages 5–12. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.1.5#.WH4YHn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.1.5

Ф. Чой, П. Вімер-Гастінгс і Д. Мур [Choi, Wiemer-Hastings, and Moore, 2001] запропонували використовувати латентний семантичний аналіз (англ. Latent Semantic Analysis, скор. LSA) для видобування семантичної інформації з корпусів, для того щоб удосконалити точність алгоритму сегментування тексту. Порівнявши точність того самого алгоритму за умови урахування або неврахування додаткової семантичної інформації, вони змогли показати переваги, отримані завдяки такій інформації. Проте у їхніх експериментах семантичну інформацію було отримано з корпусу текстів, які повинні були бути сегментовані під час пілотної фази. Якщо більша частина отриманих переваг пояснюється цією унікальною особливістю корпусу LSA, можна поставити під сумнів можливість використання LSA для отримання загальної семантичної інформації, за допомогою якої можна сегментувати нові тексти. Обидва описані у статті експерименти свідчать, що присутність у корпусі LSA пілотних матеріалів має серйозні наслідки, але також що загальна семантична інформація, отримана з великих корпусів, явно поліпшує точність сегментування.

Переклад В. Коломієць

Kiss, T. Unsupervised Multilingual Sentence Boundary Detection [Спонтанне визначення меж речень різними мовами] / Tibor Kiss, Jan Strunk // Computational linguistics. – 2006. – Vol. 32. – No. 4. – Pр. 485–525. – Режим доступу до анотації http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485#.WH6AG33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.4.485

У статті описується незалежний від мови, спонтанний підхід до визначення меж речення. Він базується на припущенні, що значна частина проблем, пов’язаних із визначенням меж речень, вирішується відразу після розпізнання абревіатур. Замість використання орфографічних підказок запропонована система здатна з високою точністю виявляти абревіатури, використовуючи три критерії, які вимагають тільки інформації про тип кандидата у абревіатуру і не залежать від контексту: абревіатури можна визначити як високочастотні колокації, що складаються із скороченого слова і кінцевої крапки, абревіатури зазвичай короткі і абревіатури можуть містити внутрішні крапки. Також продемонстровано можливість використання двох інших важливих підзадач визначення меж речення, а саме знаходження ініціалів та порядкових числівників, для знаходження коллокацій. Запропонована система була ретельно протестована на текстах різних жанрів одинадцятьма різними мовами. Вона досягає хороших результатів без будь-яких додаткових поправок або ресурсів, які відображають специфіку мови. Для оцінки роботи системи використано три критерії. Запропонована система порівняно з іншими системами для визначення меж речень, описаних у літературі.

Переклад К. Погорєлова

Li, Z. Punctuation as Implicit Annotations for Chinese Word Segmentation [Пунктуація як імпліцитна розмітка для сегментування китайських текстів] / Zhongguo Li, Maosong Sun // Computational linguistics. – 2009. – Vol. 35. – No. 4. – Pages 505–512. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2009.35.4.35403#.WIE5ZH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35403

У статті описана модель автоматичного встановлення меж китайських слів на основі знаків пунктуації, які є прекрасними роздільниками слів. Навчання здійснюється за допомогою сегментованого вручну корпусу. Запропонований метод є набагато ефективнішим, ніж попередні методи у розпізнаванні невідомих слів. Це крок до розв’язання однієї з найскладніших поблем у сегментування китайських текстів.

Переклад В. Коломієць

Wang, H. A New Unsupervised Approach to Word Segmentation [Новий неконтрольований метод визначення меж слів] / Hanshi Wang, Jian Zhu, Shiping Tang, Xiaozhong Fan // Computational linguistics. – 2011. – Vol. 37. – No. 3. – Pages 421–454. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00058#.WIE6HH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00058

У статті описано ESA, новий неконтрольований метод визначення меж слів. ESA – це ітеративний процес, який складається з трьох етапів: оцінювання (Evaluation), вибору (Selection) і корегування (Adjustment). На етапі оцінювання як обов’язкова, так і можлива поява у корпусі послідовності символів уважається статистичним підтвердженням якості аналізу. Крім того, статистичні дані про послідовності символів різної довжини стають співставними один із одним завдяки простій обробці під назвою збалансовування (Balancing). На етапі вибору обирається стратегія відносного максимуму без порогових обмежень, яка може бути реалізована за допомогою динамічного програмування. На етапі корегування, частина статистичних даних оновлюється для підвищення якості нових результатів. У проведеному експерименті оцінювання ESA було здійснене за допомогою набору даних SIGHAN Bakeoff-2. Результати свідчать про ефективність ESA для корпусів китайської мови. Варто зазначити, що F-міри результатів переважно монотонно зростають і можуть швидко наблизитися до відносно високих показників. Крім того, емпіричні формули на основі отриманих результатів можуть використовуватися для прогнозування параметрів ESA, щоб обійтися без визначення параметрів, яке зазвичай забирає багато часу.

Переклад В. Коломієць