Weeber, M. Extracting the Lowest-Frequency Words: Pitfalls and Possibilities [Виокремлення слів із найнижчою частотністю: труднощі та можливості] / Marc Weeber, Rein Vos, R. Harald Baayen // Computational linguistics. – 2000. – Vol. 26. – No. 3. – Pages 301–317. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100561719#.WIEwmn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100561719
У системі видобування медичних даних нами використовуються стандартні методи асоціацій слів для виокремлення термінів на позначення побічних реакцій. Багато таких термінів мають частотність менше п’яти. Стандартні програми на основі словесних асоціацій ігнорують слова із найнижчою частотністю, ігноруючи таким чином корисну інформацію. Тому було розроблено систему видобування слів з усіма частотностями. Ця система вираховує значимість асоціацій за допомогою логарифмічного відношення правдоподібності та точного критерія Фішера. На виході програма демонструє повторювану, незалежну від корпусу тенденцію як у відносній, так і в абсолютній частоті значимих слів. Ці тенденції пояснюються статистичною поведінкою слів з найнижчою частотністю. Щоб показати універсальний характер виявлених закономірностей, було використано голландські фразові дієслова у якості другої і незалежної програми виокремлення колокацій. Зроблено наступні висновки: а) системи виокремлення слів на основі словесних асоціацій можна удосконалити шляхом урахування слів із найнижчою частотністю; б) рівні значущості не повинні бути фіксованими, а підлаштовуватися до оптимального розміру вікна; в) hapax legomena, слова, що зустрілися в тексті лише один раз, повинні апріорно ігноруватися у статистичному аналізі, та г) розподіл об’єктів для виокремленя слід розглядати разом із методом виокремлення.
У системі видобування медичних даних нами використовуються стандартні методи асоціацій слів для виокремлення термінів на позначення побічних реакцій. Багато таких термінів мають частотність менше п’яти. Стандартні програми на основі словесних асоціацій ігнорують слова із найнижчою частотністю, ігноруючи таким чином корисну інформацію. Тому було розроблено систему видобування слів з усіма частотностями. Ця система вираховує значимість асоціацій за допомогою логарифмічного відношення правдоподібності та точного критерія Фішера. На виході програма демонструє повторювану, незалежну від корпусу тенденцію як у відносній, так і в абсолютній частоті значимих слів. Ці тенденції пояснюються статистичною поведінкою слів з найнижчою частотністю. Щоб показати універсальний характер виявлених закономірностей, було використано голландські фразові дієслова у якості другої і незалежної програми виокремлення колокацій. Зроблено наступні висновки: а) системи виокремлення слів на основі словесних асоціацій можна удосконалити шляхом урахування слів із найнижчою частотністю; б) рівні значущості не повинні бути фіксованими, а підлаштовуватися до оптимального розміру вікна; в) hapax legomena, слова, що зустрілися в тексті лише один раз, повинні апріорно ігноруватися у статистичному аналізі, та г) розподіл об’єктів для виокремленя слід розглядати разом із методом виокремлення.
Переклад О. Мартинюк
Stamatatos, E. Automatic Text Categorization in Terms of Genre and Author [Автоматична категоризація текстів за жанром і автором] / Efstathios Stamatatos, Nikos Fakotakis, George Kokkinakis // Computational linguistics. – 2000. – Vol. 26. – No. 4. – Pages 471–495. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120100750105920#.WIE1In3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120100750105920
Два основні фактори, які характеризують текст, - це його зміст і стиль, і обидва можуть бути використані як засіб категоризації. У статті описано метод категоризації тексту за жанром і автором для сучасної грецької мови. На відміну від попередніх методів статистичної стилістики, зроблено спробу використовувати в повній мірі наявні інструменти обробки природної мови. Для цього розроблено набір показників стилю, зокрема аналітичні метрики, які показують, яким чином був проаналізований уведений текст і фіксують корисну стилістичну інформацію без додаткових витрат. Описано ряд невеликих, але достатніх експериментів із розпізнавання жанру тексту, встановлення особи автора та підтвердження авторства, і показано, що запропонований метод є ефективнішим, ніж надзвичайно популярні міри дистрибуції лексики, тобто функції багатства лексики і частоти вживання найчастотніших слів. У всіх описаних експериментах використовувався довільний текст, завантажений із Інтернету, без будь-якої ручної попередньої обробки або скорочення. Розглянуто різні проблеми використання методу, що стосуються обсягу навчального матеріалу і значущості запропонованих показників стилю. Створена система може бути використана в будь-якому додатку, де потрібна швидка категоризація тексту, яку можна легко адаптувати в плані стилістично однорідних категорій. Крім того, використовуючи існуючі інструменти обробки тексту, можна простежити процес визначення аналітичних метрик, щоб видобути корисну стилістичну інформацію.
Два основні фактори, які характеризують текст, - це його зміст і стиль, і обидва можуть бути використані як засіб категоризації. У статті описано метод категоризації тексту за жанром і автором для сучасної грецької мови. На відміну від попередніх методів статистичної стилістики, зроблено спробу використовувати в повній мірі наявні інструменти обробки природної мови. Для цього розроблено набір показників стилю, зокрема аналітичні метрики, які показують, яким чином був проаналізований уведений текст і фіксують корисну стилістичну інформацію без додаткових витрат. Описано ряд невеликих, але достатніх експериментів із розпізнавання жанру тексту, встановлення особи автора та підтвердження авторства, і показано, що запропонований метод є ефективнішим, ніж надзвичайно популярні міри дистрибуції лексики, тобто функції багатства лексики і частоти вживання найчастотніших слів. У всіх описаних експериментах використовувався довільний текст, завантажений із Інтернету, без будь-якої ручної попередньої обробки або скорочення. Розглянуто різні проблеми використання методу, що стосуються обсягу навчального матеріалу і значущості запропонованих показників стилю. Створена система може бути використана в будь-якому додатку, де потрібна швидка категоризація тексту, яку можна легко адаптувати в плані стилістично однорідних категорій. Крім того, використовуючи існуючі інструменти обробки тексту, можна простежити процес визначення аналітичних метрик, щоб видобути корисну стилістичну інформацію.
Переклад К. Погорєлова
Cucchiarelli, A. Unsupervised Named Entity Recognition Using Syntactic and Semantic Contextual Evidence [Неконтрольоване розпізнавання власних назв з урахуванням синтаксичного і семантичного контексту] / Alessandro Cucchiarelli, Paola Velardi // Computational linguistics. – 2001. – Vol. 27. – No. 1. – Pages 123–131. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101300346822#.WIE2H33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101300346822
Власні назви утворюють відкритий клас, тому неповнота правил класифікації, укладених вручну або автоматично, є очевидною проблемою. Стаття має дві цілі: по-перше, запропонувати використання додаткового "допоміжного" методу для підвищення надійності будь-якого маркувальника власних назв, створеного вручну або на основі машинного навчання, а по-друге, проаналізувати ефективність використання точніших даних − а саме, інформації про синтаксичний і семантичний контекст − для класифікації власних назв.
Власні назви утворюють відкритий клас, тому неповнота правил класифікації, укладених вручну або автоматично, є очевидною проблемою. Стаття має дві цілі: по-перше, запропонувати використання додаткового "допоміжного" методу для підвищення надійності будь-якого маркувальника власних назв, створеного вручну або на основі машинного навчання, а по-друге, проаналізувати ефективність використання точніших даних − а саме, інформації про синтаксичний і семантичний контекст − для класифікації власних назв.
Переклад К. Погорєлова
Kehler, A. The Need for Accurate Alignment in Natural Language System Evaluation [Необхідність точної вивірки в оцінюванні системи обробки природної мови] / Andrew Kehler, John Bear, Douglas Appelt // Computational linguistics. – 2001. – Vol. 27. – No. 2. – Pages 231–248. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120101750300517#.WIExsH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120101750300517
Оскільки оцінки технологій комп’ютерної лінгвістики переміщаються до завдань вищого рівня складності, завдання встановлення відповідностей між відповідями системи та правильними відповідями може ускладнитись. У статті подано вичерпний аналіз процедури вивірки, яка використовувалась для оцінки технології видобування інформації на шостій конференції по розумінню повідомлень (Message Understanding Conference 6, скор. MUC-6). Виявлено причини, які заважають досягненню заявлених цілей аналізу. Показано, що ці причини настільки розповсюджені, що здатні негативно вплинути на процес розвитку технології. Отримані результати свідчать про необхідність використання точних критеріїв вивірки в оцінюванні природної мови та розмежування критеріїв вивірки і механізмів підрахунку оцінок.
Оскільки оцінки технологій комп’ютерної лінгвістики переміщаються до завдань вищого рівня складності, завдання встановлення відповідностей між відповідями системи та правильними відповідями може ускладнитись. У статті подано вичерпний аналіз процедури вивірки, яка використовувалась для оцінки технології видобування інформації на шостій конференції по розумінню повідомлень (Message Understanding Conference 6, скор. MUC-6). Виявлено причини, які заважають досягненню заявлених цілей аналізу. Показано, що ці причини настільки розповсюджені, що здатні негативно вплинути на процес розвитку технології. Отримані результати свідчать про необхідність використання точних критеріїв вивірки в оцінюванні природної мови та розмежування критеріїв вивірки і механізмів підрахунку оцінок.
Переклад А. Синящик
Weeds, J. Co-occurrence Retrieval: A Flexible Framework for Lexical Distributional Similarity [Виявлення одночасної появи слів: гнучкий підхід до лексичної дистрибутивної схожості] / Julie Weeds, David Weir // Computational linguistics. – 2005. – Vol. 31. – No. 4. – Pages 439–475. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120105775299122#.WIE3zH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120105775299122
У багатьох галузях обробки природної мови пропонуються методи, які використовують інформацію про дистрибутивну схожість слів. Наприклад, у моделюванні мови можна зменшити проблему відсутності повних даних, спрогнозувавши вірогідність одночасної появи слів, яка не спостерігалась раніше, на основі одночасної появи подібних слів, яка спостерігалась раніше. У інших додатках дистрибутивна схожість уважається наближенням до семантичної схожості. Проте, завдяки широкому спектру потенційного застосування і через відсутність чіткого визначення поняття дистрибутивної схожості були запропоновані або запозичені багато методів обчислення дистрибутивної схожості.
У цій роботі пропонується гнучкий, параметризований підхід до обчислення дистрибутивної схожості. У рамках цього підходу проблема знаходження слів зі схожою дистрибуцією розглядається як різновид пошуку одночасної появи (ПОП), для якого можна визначити точність і повноту по аналогії з методами їх вимірювання у пошуці документів. Як буде продемонстровано, в рамках підходу ПОП використовувались налаштування параметрів для моделювання великої кількості популярних нині мірок дистрибутивної схожості. Після цього підхід ПОП був використаний у дослідженні для систематичного дослідження трьох основних питань, які стосуються дистрибутивної схожості. По-перше, чи завжди відношення лексичної схожості є симетричними, і чи дає якісь переваги ставлення до них як до відношень асиметричних? По-друге, чи є деякі випадки одночасного вживання по своїй суті важливішими, ніж інші, у обчисленні дистрибутивної схожості? По-третє, чи потрібно брати до уваги різницю між кількістю появ кожного слова у кожному різновиді одночасної появи?
Оцінювання здійснювалось за допомогою двох завдань з використанням додатків: автоматичного створення тезаурусу і імітації розв’язання багатозначності. Можна значно поліпшити результати виконання обох вказаних завдань не шляхом використання інших існуючих критеріїв дистрибутивної схожості, а варіюючи параметри в рамках підходу ПОП. Також доведено, що будь-яка окрема непараметризована мірка навряд чи зможе показати вищу ефективність у обох завданнях. Це пояснюється притаманною лексичній замінності, а отже і лексичній дистрибутивній схожості, асиметрією.
У багатьох галузях обробки природної мови пропонуються методи, які використовують інформацію про дистрибутивну схожість слів. Наприклад, у моделюванні мови можна зменшити проблему відсутності повних даних, спрогнозувавши вірогідність одночасної появи слів, яка не спостерігалась раніше, на основі одночасної появи подібних слів, яка спостерігалась раніше. У інших додатках дистрибутивна схожість уважається наближенням до семантичної схожості. Проте, завдяки широкому спектру потенційного застосування і через відсутність чіткого визначення поняття дистрибутивної схожості були запропоновані або запозичені багато методів обчислення дистрибутивної схожості.
У цій роботі пропонується гнучкий, параметризований підхід до обчислення дистрибутивної схожості. У рамках цього підходу проблема знаходження слів зі схожою дистрибуцією розглядається як різновид пошуку одночасної появи (ПОП), для якого можна визначити точність і повноту по аналогії з методами їх вимірювання у пошуці документів. Як буде продемонстровано, в рамках підходу ПОП використовувались налаштування параметрів для моделювання великої кількості популярних нині мірок дистрибутивної схожості. Після цього підхід ПОП був використаний у дослідженні для систематичного дослідження трьох основних питань, які стосуються дистрибутивної схожості. По-перше, чи завжди відношення лексичної схожості є симетричними, і чи дає якісь переваги ставлення до них як до відношень асиметричних? По-друге, чи є деякі випадки одночасного вживання по своїй суті важливішими, ніж інші, у обчисленні дистрибутивної схожості? По-третє, чи потрібно брати до уваги різницю між кількістю появ кожного слова у кожному різновиді одночасної появи?
Оцінювання здійснювалось за допомогою двох завдань з використанням додатків: автоматичного створення тезаурусу і імітації розв’язання багатозначності. Можна значно поліпшити результати виконання обох вказаних завдань не шляхом використання інших існуючих критеріїв дистрибутивної схожості, а варіюючи параметри в рамках підходу ПОП. Також доведено, що будь-яка окрема непараметризована мірка навряд чи зможе показати вищу ефективність у обох завданнях. Це пояснюється притаманною лексичній замінності, а отже і лексичній дистрибутивній схожості, асиметрією.
Переклад В. Коломієць
Tanaka-Ishii, T. Sorting Texts by Readability [Сортування текстів за складністю] / Kumiko Tanaka-Ishii, Satoshi Tezuka, Hiroshi Terada // Computational linguistics. – 2010. – Vol. 36. – No. 2. – Pages 203-227. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.09-036-R2-08-050#.WIE5wn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.09-036-R2-08-050
У статті описано новаторський метод оцінювання складності текстів шляхом сортування. За допомогою машинного навчання створюється компаратор, який порівнює відносну складність пари текстів, потім цей компаратор сортує заданий набір текстів. Корисність розробленого методу в тому, що він вирішує проблему відсутності навчального набору даних, адже для створення компаратора потрібен лише набір даних, розсортованих за двома рівнями складності. Розроблений метод порівнюється з методами регресії і новітнім класифікаційним методом. Крім того, описано розроблену нами програму під назвою Terrace, яка знаходить тексти, співставні за рівнем складності із заданим вхідним текстом.
У статті описано новаторський метод оцінювання складності текстів шляхом сортування. За допомогою машинного навчання створюється компаратор, який порівнює відносну складність пари текстів, потім цей компаратор сортує заданий набір текстів. Корисність розробленого методу в тому, що він вирішує проблему відсутності навчального набору даних, адже для створення компаратора потрібен лише набір даних, розсортованих за двома рівнями складності. Розроблений метод порівнюється з методами регресії і новітнім класифікаційним методом. Крім того, описано розроблену нами програму під назвою Terrace, яка знаходить тексти, співставні за рівнем складності із заданим вхідним текстом.
Переклад В. Коломієць
Verberne, S. What Is Not in the Bag of Words for Why-QA? [Чого немає у мішку слів для системи питання «Чому…»-відповідь?] / Suzan Verberne, Lou Boves, Nelleke Oostdijk, Peter-Arno Coppen // Computational linguistics. – 2010. – Vol. 36. – No. 2. – Pages 229–245. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.09-032-R1-08-034#.WIEyS33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.09-032-R1-08-034
У процесі розробки моделі ПИТАННЯ «Чому…»-відповідь до системи пошуку фрагментів, яка використовує готові технології інформаційного пошуку, було додано модуль переранжування, який містить синтаксичну інформацію. Було отримано значно вищі показники середнього оберненого рангу MRR@150 (від 0.25 до 0.34) і success@10. Досягнуте поліпшення на 23% показників середнього оберненого рангу співставне з досягненнями інших дослідників у цій області у вирішенні різних задач, пов’язаних з питально-відповідальними системами, хоча у запропонованому методі переранжування використовуються порівняно спрощені і частково дубльовані міри, які включають синтаксичні складники, сигнальні слова і структуру документа.
У процесі розробки моделі ПИТАННЯ «Чому…»-відповідь до системи пошуку фрагментів, яка використовує готові технології інформаційного пошуку, було додано модуль переранжування, який містить синтаксичну інформацію. Було отримано значно вищі показники середнього оберненого рангу MRR@150 (від 0.25 до 0.34) і success@10. Досягнуте поліпшення на 23% показників середнього оберненого рангу співставне з досягненнями інших дослідників у цій області у вирішенні різних задач, пов’язаних з питально-відповідальними системами, хоча у запропонованому методі переранжування використовуються порівняно спрощені і частково дубльовані міри, які включають синтаксичні складники, сигнальні слова і структуру документа.
Переклад В. Коломієць
Petrenz, P. Stable Classification of Text Genres [Стабільна жанрова класифікація текстів] / Philipp Petrenz, Bonnie Webber // Computational linguistics. – 2011. – Vol. 37. – No. 2. – Pages 385–395. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00052#.WIEMCX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00052
Кожен текст має прнаймні одну тему і належить принаймні до одного жанру. Про тему і жанр тексту частково свідчать його лексичні та синтаксичні характеристики – характеристики, які використовуються як для автоматичної тематичної класифікації, так і для автоматичної жанрової класифікації (АЖК). Оскільки ідеальна система АЖК не повинна залежати від змін у розподілі тем, здійснено оцінку п’яти опублікованих методів АЖК як щодо їх ефективності на тій самій тематичній і жанровій дистрибуції, на якій вони навчалися, так і щодо стабільності цієї ефективності при змінах у тематичній і жанровій дистрибуції. Здійснені експерименти дозволили зробити висновок, що (1) до критеріїв оцінювання нових підходів до АЖК потрібно додати стабільність в умовах зміни тематичної дистрибуції і (2) що при розробці високопродуктивної, стабільної системи АЖК для конкретного, можливо динамічного, корпусу ознаки частин мови потрібно враховувати окремо.
Кожен текст має прнаймні одну тему і належить принаймні до одного жанру. Про тему і жанр тексту частково свідчать його лексичні та синтаксичні характеристики – характеристики, які використовуються як для автоматичної тематичної класифікації, так і для автоматичної жанрової класифікації (АЖК). Оскільки ідеальна система АЖК не повинна залежати від змін у розподілі тем, здійснено оцінку п’яти опублікованих методів АЖК як щодо їх ефективності на тій самій тематичній і жанровій дистрибуції, на якій вони навчалися, так і щодо стабільності цієї ефективності при змінах у тематичній і жанровій дистрибуції. Здійснені експерименти дозволили зробити висновок, що (1) до критеріїв оцінювання нових підходів до АЖК потрібно додати стабільність в умовах зміни тематичної дистрибуції і (2) що при розробці високопродуктивної, стабільної системи АЖК для конкретного, можливо динамічного, корпусу ознаки частин мови потрібно враховувати окремо.
Переклад І. Снєгурова
Pan, F. Annotating and Learning Event Durations in Text [Анотування і автоматичне визначення тривалості подій у текстах] / Feng Pan, Rutu Mulkar-Mehta, Jerry R. Hobbs // Computational linguistics. – 2011. – Vol. 37. – No. 4. – Pages 727–752. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00075#.WIHw_X3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00075
У статті описується розробка корпусу публікацій новин з розміткою приблизної тривалості подій і машинне навчання на основі цього корпусу. Описано правила анотування, розроблену з метою зменшення серйозних розходжень між судженнями анотаторів класифікацію подій, а також використання нормального розподілу для моделювання неконкретної і імпліцитної інформації про тривалість подій і визначення міри узгодженості між анотаторами щодо розподілів тривалості подій. Потім показано, що застосувавши до цих даних методи машинного навчання, можна автоматично отримати приблизну інформацію про тривалість подій, що значно перевершує базові дані продуктивності і наближається до людських оцінок. Описані у статті методи можна застосовувати до інших видів неконкретних, але суттєвих даних у тексті.
У статті описується розробка корпусу публікацій новин з розміткою приблизної тривалості подій і машинне навчання на основі цього корпусу. Описано правила анотування, розроблену з метою зменшення серйозних розходжень між судженнями анотаторів класифікацію подій, а також використання нормального розподілу для моделювання неконкретної і імпліцитної інформації про тривалість подій і визначення міри узгодженості між анотаторами щодо розподілів тривалості подій. Потім показано, що застосувавши до цих даних методи машинного навчання, можна автоматично отримати приблизну інформацію про тривалість подій, що значно перевершує базові дані продуктивності і наближається до людських оцінок. Описані у статті методи можна застосовувати до інших видів неконкретних, але суттєвих даних у тексті.
Переклад В. Коломієць
Chen, Y. A Joint Model to Identify and Align Bilingual Named Entities [Комбінована модель для розпізнавання і вирівнювання власних назв двома мовами] / Yufeng Chen, Chengqing Zong, Keh-Yih Su // Computational linguistics. – 2013. – Vol. 39. – No. 2. – Pages 229–266. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00122#.WII0BX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00122
У статті теоретично виведена інтегрована модель, яка і визначає, і вирівнює власні назви (ВН) двома мовами – китайскою і англійською. Модель підказана такими спостереженнями: 1) вибір семантичного або фонетичного перекладу ВН великою мірою залежить від їх різновиду, 2) власні назві у вирівняній парі повинні належати до одного типу і 3) ВН, визначені першими, можуть виступати в ролі якорів і надавати додаткову інформацію при відборі кандидатів на ВН. На основі цих спостережень у статті пропонується характеристика співвідношення способів перекладу (яка визначається як відсоток усіх слів ВН, перекладених семантичним способом), уводиться обмеження постійності типів назв і використовуються додаткові нові можливі ВН (на основі визначених на початку якорів ВН).
Експерименти свідчать, що цей новітній метод значно перевершує стандартні методи. У вирівнюванні китайських і англійських ВН показник F-score, незалежний від типу розпізнаних пар ВН, зріс із 78,4% до 88,0% (відносне покращення на 12,2%), а показник F-score, залежний від типу розпізнаних пар, зріс із 68,4% до 83% (відносне покращення на 21,3%). Крім того, запропонована модель показала свою надійність при тестуванні у різних предметних областях. Нарешті, при застосуванні навчання із частковим залученням учителя для тренування розробленої моделі розпізнавання англійських ВН запропонована модель також значно поліпшує залежний від типу розпізнаних англійських ВН показник F-score.
У статті теоретично виведена інтегрована модель, яка і визначає, і вирівнює власні назви (ВН) двома мовами – китайскою і англійською. Модель підказана такими спостереженнями: 1) вибір семантичного або фонетичного перекладу ВН великою мірою залежить від їх різновиду, 2) власні назві у вирівняній парі повинні належати до одного типу і 3) ВН, визначені першими, можуть виступати в ролі якорів і надавати додаткову інформацію при відборі кандидатів на ВН. На основі цих спостережень у статті пропонується характеристика співвідношення способів перекладу (яка визначається як відсоток усіх слів ВН, перекладених семантичним способом), уводиться обмеження постійності типів назв і використовуються додаткові нові можливі ВН (на основі визначених на початку якорів ВН).
Експерименти свідчать, що цей новітній метод значно перевершує стандартні методи. У вирівнюванні китайських і англійських ВН показник F-score, незалежний від типу розпізнаних пар ВН, зріс із 78,4% до 88,0% (відносне покращення на 12,2%), а показник F-score, залежний від типу розпізнаних пар, зріс із 68,4% до 83% (відносне покращення на 21,3%). Крім того, запропонована модель показала свою надійність при тестуванні у різних предметних областях. Нарешті, при застосуванні навчання із частковим залученням учителя для тренування розробленої моделі розпізнавання англійських ВН запропонована модель також значно поліпшує залежний від типу розпізнаних англійських ВН показник F-score.
Переклад В. Коломієць
Di Marco, A. Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction [Кластеризація і диверсифікація результатів інформаційного пошуку за допомогою встановлення значення слів на основі графів] / Antonio Di Marco, Roberto Navigli // Computational linguistics. – 2013. – Vol. 39. – No. 3. – Pages 709–754. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00148#.WIE0BH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00148
Метою кластеризації результатів інформаційного пошуку є полегшення пошуку інформації у Інтернеті. Замість представлення результатів запиту у вигляді плаского списку, вони групуються на основі схожості і пізніше пред’являються користувачеві як список кластерів. Призначення кожного кластера – представляти різні значення пошукового запиту, враховуючи таким чином проблему лексичної неоднозначності (або полісемії). Проте існуючі методи кластеризації Всесвітньої мережі звичайно базуються на якомусь поверховому уявленні про текстову схожість фрагментів пошукових результатів. В результаті, текстові фрагменти, які не містять однакових слів, потрапляють у окремі кластери, навіть якщо вони схожі за змістом, а текстові фрагменти, які містять однакові слова, групуються разом, навіть якщо вони відносяться до різних значень запиту.
У статті представлено новий підхід до кластеризації результатів інформаційного пошуку, який базується на автоматичному встановленні значень слів із сирого тексту, завданні, яке називається індукцією значення слова. Ключом до нашого підходу є встановлення різних смислів (тобто значень) неоднозначного запиту і наступна кластеризація результатів пошуку на основі їх семантичної схожості із встановленими смислами слів. Експерименти, проведені на наборах даних, які складалися з неоднозначних запитів, свідчать, що наш підхід перевершує як мережеву кластеризацію, так і інформаційно-пошукові системи.
Метою кластеризації результатів інформаційного пошуку є полегшення пошуку інформації у Інтернеті. Замість представлення результатів запиту у вигляді плаского списку, вони групуються на основі схожості і пізніше пред’являються користувачеві як список кластерів. Призначення кожного кластера – представляти різні значення пошукового запиту, враховуючи таким чином проблему лексичної неоднозначності (або полісемії). Проте існуючі методи кластеризації Всесвітньої мережі звичайно базуються на якомусь поверховому уявленні про текстову схожість фрагментів пошукових результатів. В результаті, текстові фрагменти, які не містять однакових слів, потрапляють у окремі кластери, навіть якщо вони схожі за змістом, а текстові фрагменти, які містять однакові слова, групуються разом, навіть якщо вони відносяться до різних значень запиту.
У статті представлено новий підхід до кластеризації результатів інформаційного пошуку, який базується на автоматичному встановленні значень слів із сирого тексту, завданні, яке називається індукцією значення слова. Ключом до нашого підходу є встановлення різних смислів (тобто значень) неоднозначного запиту і наступна кластеризація результатів пошуку на основі їх семантичної схожості із встановленими смислами слів. Експерименти, проведені на наборах даних, які складалися з неоднозначних запитів, свідчать, що наш підхід перевершує як мережеву кластеризацію, так і інформаційно-пошукові системи.
Переклад В. Коломієць
D'hondt, E. Text Representations for Patent Classification [Репрезентації текстів для класифікації патентів] / Eva D'hondt, Suzan Verberne, Cornelis Koster, Lou Boves // Computational linguistics. – 2013. – Vol. 39. – No. 3. – Pages 755–775. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00149#.WIE62n3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00149
У зв’язку із збільшенням кількості заявок на видачу патентів, збільшується економічна важливість автоматичної класифікації патентів. У статті досліджується, як можна поліпшити класифікацію патентів, використовуючи різні представлення патентної документації. За допомогою системи лінгвістичної класифікації (англ. Linguistic Classification System, скор. LCS) порівнюється вплив додавання статистичних словосполучень (у формі біграмів) і лінгвістичних словосполучень (з двома різними видами залежностей) до стандартної репрезентації тексту у вигляді мішка слів на виборці з 532 264 англійських аннотацій з корпусу CLEF-IP 2010. На відміну від попередніх досліджень класифікації за допомогою словосполучень із бази даних Reuters-21578, у класифікації патентів додавання словосполучень призводить до значного підвищення якості у порівнянні зі стандартними показниками уніграму. Найкращі показники були отримані шляхом об’єднання усіх чотирьох репрезентацій, на другому місці знаходяться показники, отримані шляхом комбінування уніграмів і лематизованих біграмів. У статті здійснено ретельний аналіз класів моделей (або опис класів), створених класифікаторами у рамках LCS, для визначення типу словосполучень, які є найбільш інформативними для класифікації патентів. З’ясовано, що підвищення точності класифікації залежить в першу чергу від біграмів. Щоб визначити ступінь застосовності отриманих результатів подібні експерименти були проведені на підмножинах уривків з патентів французькою і німецькою мовами.
У зв’язку із збільшенням кількості заявок на видачу патентів, збільшується економічна важливість автоматичної класифікації патентів. У статті досліджується, як можна поліпшити класифікацію патентів, використовуючи різні представлення патентної документації. За допомогою системи лінгвістичної класифікації (англ. Linguistic Classification System, скор. LCS) порівнюється вплив додавання статистичних словосполучень (у формі біграмів) і лінгвістичних словосполучень (з двома різними видами залежностей) до стандартної репрезентації тексту у вигляді мішка слів на виборці з 532 264 англійських аннотацій з корпусу CLEF-IP 2010. На відміну від попередніх досліджень класифікації за допомогою словосполучень із бази даних Reuters-21578, у класифікації патентів додавання словосполучень призводить до значного підвищення якості у порівнянні зі стандартними показниками уніграму. Найкращі показники були отримані шляхом об’єднання усіх чотирьох репрезентацій, на другому місці знаходяться показники, отримані шляхом комбінування уніграмів і лематизованих біграмів. У статті здійснено ретельний аналіз класів моделей (або опис класів), створених класифікаторами у рамках LCS, для визначення типу словосполучень, які є найбільш інформативними для класифікації патентів. З’ясовано, що підвищення точності класифікації залежить в першу чергу від біграмів. Щоб визначити ступінь застосовності отриманих результатів подібні експерименти були проведені на підмножинах уривків з патентів французькою і німецькою мовами.
Переклад В. Коломієць
Barrón-Cedeño, A. Plagiarism Meets Paraphrasing: Insights for the Next Generation in Automatic Plagiarism Detection [Плагіат і парафраза: ідеї для наступного покоління систем атоматичного виявлення плагіату] / Alberto Barrón-Cedeño, Marta Vila, M. Antònia Martí, Paolo Rosso // Computational linguistics. – 2013. – Vol. 39. – No. 4. – Pages 917–947. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00153#.WIE7lH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00153
Хоча парафразування є лінгвістичним механізмом, який лежить в основі багатьох випадків плагіату, його аналізу в рамках автоматичного розпізнавання плагіату приділялось мало уваги. Саме тому сучасним детекторам плагіату складно виявити випадки парафразового плагіату. У статті здійснено аналіз зв'язку парафрази та плагіату з метою виділення різновидів парафрази, які є характерними для плагіату, і тих із них, які можна виявити за допомогою систем розпізнавання плагіату. Для досягнення поставленої мети було створено корпус P4P, новий ресурс, у якому використано типологію парафрази, для анотування частини корпусу PAN-PC-10 для автоматичного розпізнавання плагіату. З точки зору цього анотування проаналізовано результати другого міжнародного змагання із визначення плагіату.
Описані експерименти свідчать, що (1) складніші парафрази та висока щільність парафразових конструкцій ускладнюють розпізнавання плагіату, (2) лексичні заміни є парафразовими конструкціями, які найчастіше використовуються у процесі списування, і (3) парафразові конструкції, як правило, скорочують списаний текст. Це перше дослідження парафразових конструкцій, які використовуються у процесі плагіату, у якому висловлено ідеї, важливі для вдосконалення автоматичних систем розпізнавання плагіату.
Хоча парафразування є лінгвістичним механізмом, який лежить в основі багатьох випадків плагіату, його аналізу в рамках автоматичного розпізнавання плагіату приділялось мало уваги. Саме тому сучасним детекторам плагіату складно виявити випадки парафразового плагіату. У статті здійснено аналіз зв'язку парафрази та плагіату з метою виділення різновидів парафрази, які є характерними для плагіату, і тих із них, які можна виявити за допомогою систем розпізнавання плагіату. Для досягнення поставленої мети було створено корпус P4P, новий ресурс, у якому використано типологію парафрази, для анотування частини корпусу PAN-PC-10 для автоматичного розпізнавання плагіату. З точки зору цього анотування проаналізовано результати другого міжнародного змагання із визначення плагіату.
Описані експерименти свідчать, що (1) складніші парафрази та висока щільність парафразових конструкцій ускладнюють розпізнавання плагіату, (2) лексичні заміни є парафразовими конструкціями, які найчастіше використовуються у процесі списування, і (3) парафразові конструкції, як правило, скорочують списаний текст. Це перше дослідження парафразових конструкцій, які використовуються у процесі плагіату, у якому висловлено ідеї, важливі для вдосконалення автоматичних систем розпізнавання плагіату.
Переклад В. Туз
Seroussi, Y. Authorship Attribution with Topic Models [Встановлення авторства за допомогою тематичних моделей] / Yanir Seroussi, Ingrid Zukerman, Fabian Bohnert // Computational linguistics. – 2014. – Vol. 40. – No. 2. – Pages 269–310. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00173#.WIE-AH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00173
Автоматичне визначення авторства полягає у встановленні авторства анонімних текстів. Раніше дослідження у цій галузі стосувалися переважно офіційних документів, таких як есе і романи, але останнім часом більше уваги приділяється текстам, створеним користувачами мережі Інтернет, таким як електронні листи та блоги. Встановити авторство таких текстів значно важче, ніж встановити авторство офіційних документів, оскільки обсяг тексту є меншим, а кількість претендентів на авторство – більшою. Ми вирішуємо цю проблему, отримуючи репрезентації авторів за допомогою тематичних моделей. Окрім вивчення нових способів застосування двох відомих тематичних моделей для розв’язання цієї задачі, протестовано нашу нову модель, яка проектує авторів та документи на два окремі тематичні простори. Використання нашої моделі при встановленні авторства текстів продемонструвало її високу результативність у кількох наборах даних, які містили або офіційні документи, написані кількома авторами, або неофіційні документи, створені десятками тисяч користувачів Інтернету. Також описано результати експериментів, які засвідчили можливість застосування тематичних репрезентацій авторів при розв’язанні ще двох проблем: визначенні тональності текстів та прогнозуванні можливих оцінок користувачами таких продуктів, як кінофільми.
Автоматичне визначення авторства полягає у встановленні авторства анонімних текстів. Раніше дослідження у цій галузі стосувалися переважно офіційних документів, таких як есе і романи, але останнім часом більше уваги приділяється текстам, створеним користувачами мережі Інтернет, таким як електронні листи та блоги. Встановити авторство таких текстів значно важче, ніж встановити авторство офіційних документів, оскільки обсяг тексту є меншим, а кількість претендентів на авторство – більшою. Ми вирішуємо цю проблему, отримуючи репрезентації авторів за допомогою тематичних моделей. Окрім вивчення нових способів застосування двох відомих тематичних моделей для розв’язання цієї задачі, протестовано нашу нову модель, яка проектує авторів та документи на два окремі тематичні простори. Використання нашої моделі при встановленні авторства текстів продемонструвало її високу результативність у кількох наборах даних, які містили або офіційні документи, написані кількома авторами, або неофіційні документи, створені десятками тисяч користувачів Інтернету. Також описано результати експериментів, які засвідчили можливість застосування тематичних репрезентацій авторів при розв’язанні ще двох проблем: визначенні тональності текстів та прогнозуванні можливих оцінок користувачами таких продуктів, як кінофільми.
Переклад М. Погребної
Chang, C. Practical Linguistic Steganography using Contextual Synonym Substitution and a Novel Vertex Coding Method [Практична лінгвістична стеганографія на основі підстановки контекстних синонімів і нового методу кодування вершин] / Ching-Yun Chang, Stephen Clark // Computational linguistics. – 2014. – Vol. 40. – No. 2. – Pages 403–448. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00176#.WIE-Z33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00176
Мета лінгвістичної стеганографії – сховати інформацію в тексті природною мовою. Однією з основних трансформацій, які використовуються у лінгвістичній стеганографії, є підстановка синонімів. Проте досліджень практичного застосування цього підходу мало. У статті запропоновано два вдосконалення до застосування підстановки синонімів для кодування прихованих бітів інформації. По-перше, для перевірки застосовності синоніма в контексті використано корпус Google n-grams, а оцінювання методу здійснено за допомогою даних із завдання на лексичну підстановку з конференції SemEval і даних, анотованих вручну. По-друге, розглянуто спричинену багатозначними словами проблему створення потенційної неоднозначності: які біти представлені конкретним словом. Розроблено новий метод, у якому слова є вершинами графа, синоніми з’єднані ребрами, а приписані слову біти визначаються за допомогою алгоритму кодування вершини. Вказаний метод гарантує, що кожне слово представляє унікальну послідовність бітів без виключення великої кількості синонімів і таким чином зберігає достатню шифрувальну здатність.
Мета лінгвістичної стеганографії – сховати інформацію в тексті природною мовою. Однією з основних трансформацій, які використовуються у лінгвістичній стеганографії, є підстановка синонімів. Проте досліджень практичного застосування цього підходу мало. У статті запропоновано два вдосконалення до застосування підстановки синонімів для кодування прихованих бітів інформації. По-перше, для перевірки застосовності синоніма в контексті використано корпус Google n-grams, а оцінювання методу здійснено за допомогою даних із завдання на лексичну підстановку з конференції SemEval і даних, анотованих вручну. По-друге, розглянуто спричинену багатозначними словами проблему створення потенційної неоднозначності: які біти представлені конкретним словом. Розроблено новий метод, у якому слова є вершинами графа, синоніми з’єднані ребрами, а приписані слову біти визначаються за допомогою алгоритму кодування вершини. Вказаний метод гарантує, що кожне слово представляє унікальну послідовність бітів без виключення великої кількості синонімів і таким чином зберігає достатню шифрувальну здатність.
Переклад В. Коломієць
Shaalan, K. A Survey of Arabic Named Entity Recognition and Classification [Огляд розпізнавання і класифікації власних назв арабською мовою] / Khaled Shaalan // Computational linguistics. – 2014. – Vol. 40. – No. 2. – Pages 469–510. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00178#.WIE-3H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00178
Оскільки завдяки службам Інтернету і Інтранету приватні і корпоративні користувачі отримують у Всесвітній мережі доступ до зростаючої кількості текстів арабською мовою, існує нагальна потреба у технологіях і інструментах для обробки потрібної інформації. Розпізнавання власних назв (англ. Named Entity Recognition, скор. NER) – це завдання видобування інформації, яке стало невід’ємною частиною багатьох інших завдань обробки природної мови, таких як машинний переклад та інформаційний пошук. NER арабською мовою стало привертати увагу протягом останніх років. Через характерні особливості арабської мови, яка належить до семітської групи мов, розпізнавання власних назв є складним завданням. Продуктивність компонента NER арабською мовою позитивно впливає на загальну продуктивність системи обробки природної мови. У статті робиться спроба детально описати зростання за останній час інтересу і наявні досягнення у дослідженнях NER арабською мовою. Обгрунтовано важливість виконання NER, висвітлено основні характеристики арабської мови, проілюстровано особливості стандартизації в анотуванні власних назв. Крім того, описано різні лінгвістичні ресурси арабською мовою і розглянуто підходи, які використовуються в області NER арабською мовою. Описано особливості типових інструментів, які виористовуються у NER арабською мовою і проілюстровано стандартні оціночні показники. Крім того, проаналізовано огляд сучасних досліджень NER арабською мовою. Нарешті, представлено висновки автора. Для ясності виклад матеріалу проілюстровано прикладами.
Оскільки завдяки службам Інтернету і Інтранету приватні і корпоративні користувачі отримують у Всесвітній мережі доступ до зростаючої кількості текстів арабською мовою, існує нагальна потреба у технологіях і інструментах для обробки потрібної інформації. Розпізнавання власних назв (англ. Named Entity Recognition, скор. NER) – це завдання видобування інформації, яке стало невід’ємною частиною багатьох інших завдань обробки природної мови, таких як машинний переклад та інформаційний пошук. NER арабською мовою стало привертати увагу протягом останніх років. Через характерні особливості арабської мови, яка належить до семітської групи мов, розпізнавання власних назв є складним завданням. Продуктивність компонента NER арабською мовою позитивно впливає на загальну продуктивність системи обробки природної мови. У статті робиться спроба детально описати зростання за останній час інтересу і наявні досягнення у дослідженнях NER арабською мовою. Обгрунтовано важливість виконання NER, висвітлено основні характеристики арабської мови, проілюстровано особливості стандартизації в анотуванні власних назв. Крім того, описано різні лінгвістичні ресурси арабською мовою і розглянуто підходи, які використовуються в області NER арабською мовою. Описано особливості типових інструментів, які виористовуються у NER арабською мовою і проілюстровано стандартні оціночні показники. Крім того, проаналізовано огляд сучасних досліджень NER арабською мовою. Нарешті, представлено висновки автора. Для ясності виклад матеріалу проілюстровано прикладами.
Переклад В. Коломієць
Clercq O. All Mixed Up? Finding the Optimal Feature Set for General Readability Prediction and Its Application to English and Dutch [Все змішалося? Пошук оптимального набору параметрів для прогнозування загальної читабельності та його застосування до англійської і нідерландської мов] / Orphée De Clercq, Véronique Hoste // Computational linguistics. – 2016. – Vol. 42. – No. 3. – Pages 457–490. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00255 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00255
Дослідження читабельності має довгу і багату історію, але досі майже не приділялося уваги прогнозуванню загальної читабельності без орієнтації на конкретну аудиторію чи жанр тексту. Крім того, хоча прикладні лінгістичні дослідження зосереджуються на додаванні більш складних параметрів читабельності, досі не існує єдиної думки щодо того, які параметри грають найважливішу роль у прогнозуванні. У статті докладно досліджено можливість побудови системи прогнозування читабельності текстів загального змісту англійською та нідерландською мовами за допомогою навчання з учителем. На основі експертної та краудсорсингової оцінок читабельності застосовано різні типи характеристик тексту, від легкообчислюваних поверхневих до характеристик, які потребують глибокої лінгвістичної обробки. Всього виділено десять груп характеристик. Досліджено як регресійні, так і класифікаційні моделі, що відображають два можливі завдання прогнозування читабельності: оцінювання окремих текстів або порівняння двох текстів. У статті показано, що вихід за межі обчислень кореляції для оптимізації читабельності за допомогою методу оптимізації за допомогою надбудови із застосуванням генетичного алгоритму, є перспективним завданням, яке дає чимало інформації про те, які комбінації характеристик дозволяють прогнозувати загальну читабельність. Оскільки для тих функцій, які потребують глибинної обробки, існує золотий стандарт, можна дослідити справжню верхню межу системи нідерландської мови. Зауважимо, що видається цікавим той факт, що результативність описаної системи автоматичного прогнозування читабельності співставна з результативністю системи на основі золотостандартної повної синтаксичної і семантичної інформації.
Дослідження читабельності має довгу і багату історію, але досі майже не приділялося уваги прогнозуванню загальної читабельності без орієнтації на конкретну аудиторію чи жанр тексту. Крім того, хоча прикладні лінгістичні дослідження зосереджуються на додаванні більш складних параметрів читабельності, досі не існує єдиної думки щодо того, які параметри грають найважливішу роль у прогнозуванні. У статті докладно досліджено можливість побудови системи прогнозування читабельності текстів загального змісту англійською та нідерландською мовами за допомогою навчання з учителем. На основі експертної та краудсорсингової оцінок читабельності застосовано різні типи характеристик тексту, від легкообчислюваних поверхневих до характеристик, які потребують глибокої лінгвістичної обробки. Всього виділено десять груп характеристик. Досліджено як регресійні, так і класифікаційні моделі, що відображають два можливі завдання прогнозування читабельності: оцінювання окремих текстів або порівняння двох текстів. У статті показано, що вихід за межі обчислень кореляції для оптимізації читабельності за допомогою методу оптимізації за допомогою надбудови із застосуванням генетичного алгоритму, є перспективним завданням, яке дає чимало інформації про те, які комбінації характеристик дозволяють прогнозувати загальну читабельність. Оскільки для тих функцій, які потребують глибинної обробки, існує золотий стандарт, можна дослідити справжню верхню межу системи нідерландської мови. Зауважимо, що видається цікавим той факт, що результативність описаної системи автоматичного прогнозування читабельності співставна з результативністю системи на основі золотостандартної повної синтаксичної і семантичної інформації.
Переклад А. Шульги