Аналіз тональності

Wiebe, J. Learning Subjective Language [Виявлення мовних показників суб’єктивності] / Janyce Wiebe , Theresa Wilson , Rebecca Bruce , Matthew Bell , Melanie Martin // Computational linguistics. – 2004. – Vol. 30. – No. 3. – Pages 277–308. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/0891201041850885#.WH4XO33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/0891201041850885

У природній мові суб’єктивність відноситься до аспектів мови, за допомогою яких виражають думки, оцінки і здогадки. Існує велика кількість додатків для обробки природної мови, які потребують аналізу суб’єктивності, зокрема видобування знань і категоризація текстів. Метою цього дослідження було автоматичне виявлення мовних засобів вираження модальності у корпусах текстів. Були розроблені й протестовані показники суб’єктивності, зокрема низькочастотні слова, коллокації, а також прикметники і дієслова визначені за допомогою дистрибутивної схожості. Функції також аналізувалися у процесі спільної роботи. Показники, виявлені за допомогою різних методів на основі різних наборів даних, демонструють узгодженість проявів, тобто всі вони дають хороші і погані результати на однакових наборах даних. Крім того, у статті показано, что щільність показників суб’єктивності у оточуючому контексті має значний вплив на вірогідність суб’єктивності слова, і вміщено результати дослідження анотування, метою якого була оцінка суб’єктивності речень з високою щільністю показників. Нарешті, щоб продемонструвати корисність отриманих у дослідженні знань, показники були використані для розпізнавання вираження думки (різновид категорізації текстів і розпізнавання жанру).

Переклад В. Коломієць

Wilson, T. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level Sentiment Analysis [Розпізнавання контекстуальної полярності: дослідження ознак для аналізу модальності на рівні словосполучення] / Theresa Wilson, Janyce Wiebe, Paul Hoffmann // Computational linguistics. – 2009. – Vol. 35. – No. 3. – Pages 399–433. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.08-012-R1-06-90#.WIERDH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.08-012-R1-06-90

В основі багатьох методів автоматичного аналізу модальності лежить великий лексикон, де у слів помічена їх апріорна полярність (яка також називається семантичною орієнтацією). Проте контекстуальна полярність словосполучення, у якому вживається окреме слово, може дуже відрізнятись від апріорної полярності цього слова. Позитивні слова вживаються у фразах, які виражають негативні емоції, або навпаки. Також, досить часто слова, які є позитивними або негативними поза контекстом, є нейтральними у контексті, тобто їх вживають зовсім не для того, щоб виразити емоцію. Мета цього дослідження полягає у автоматичному розрізненні апріорної і контекстуальної полярності з акцентом на з’ясуванні важливих для вирішення цього завдання ознак. Оскільки важливим аспектом проблеми є з’ясування, коли емоційно забарвлені слова вживаються у нейтральних контекстах, проаналізовано ознаки найтрального і емоційно забарвленого значення, а також ознаки позитивної і негативної контекстуальної полярності. Аналіз включав оцінку продуктивності ознак у різних алгоритмах машинного навчання. В усіх алгоритмах машинного навчання, за винятком одного, найкращі результати досягаються шляхом комбінування усіх ознак. Іншим аспектом аналізу було з’ясування впливу нейтральних уживань на продуктивність ознак позитивної і негативної полярності. Ці експерименти свідчать, що присутність нейтральних уживань значно погіршує продуктивність цих ознак і що можливо найкращим способом підвищення результатів розпізнавання усіх видів полярності є удосконалення здатності системи розпізнавати нейтральні слововживання.

Переклад В. Коломієць

Qiu, G. Opinion Word Expansion and Target Extraction through Double Propagation [Розширення словника оціночної лексики та виявлення об’єкта оцінювання шляхом подвійного розповсюдження] / Guang Qiu, Bing Liu, Jiajun Bu, Chun Chen // Computational linguistics. – 2011. – Vol. 37. – No. 1. – Pages 9–27. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli_a_00034#.WIERoX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli_a_00034

Останнім часом завдяки частому практичному застосуванню і складним дослідницьким завданням аналіз оцінкових суджень, відомий як видобування оцінкових суджень або аналіз тональності, привертає дуже багато уваги. У статті розглядаються дві важливі проблеми, а саме: розширення словника оціночної лексики та виявлення об’єкта оцінювання. Об’єкти оцінювання (скорочено об’єкти) – це сутності та їхні характерні ознаки, щодо яких виражаються оціночні судження. Щоб виконати ці завдання, ми з’ясували, що є декілька синтаксичних відношень, які поєднують оціночні слова і об’єкти. Ці відношення можуть бути визначені за допомогою синтаксичного аналізатора на основі граматики залежностей, а потім використані для розширення вихідного словника оціночної лексики та для видобування об’єктів. В основі запропонованого методу лежить бутстрепінг. Ми називаємо його подвійним розповсюдженням, оскільки він розповсюджує інформацію між оціночними словами та об’єктами. Основною перевагою запропонованого методу є те, що для запуску процесу бутстрепінга потрібен лише вихідний словник оціночної лексики. Отже, завдяки використанню вихідної оціночної лексики метод є напівконтрольованим. На етапі оцінювання запропонований метод був порівняний із кількома найсучаснішими методами за допомогою стандартного набору тестів для оцінки продуктів. Результати свідчать, що наш метод значно результативніший, аніж уже існуючі методи.

Переклад Д. Попової

Taboada, M. Lexicon-Based Methods for Sentiment Analysis [Словникові методи аналізу тональності] / Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, Manfred Stede // Computational linguistics. – 2011. – Vol. 37. – No. 2. – Pages 267–307. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00049#.WIESBH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00049

У статті описано словниковий метод визначення емоційно забарвленої лексики в текстах. Програма Semantic Orientation CALculator (SO-CAL) використовує словники слів із вказівкою їх семантичної орієнтації (полярності і інтенсивності) і враховує підсилення і заперечення. Програма SO-CAL застосовувалась у процесі класифікації полярності, тобто приписування тексту оцінки «позитивний або негативний», яка відображає ставлення автора до основної теми тексту. Показано, що SO-CAL однаково ефективна для різних тематик і для абсолютно нових даних. Крім того, описано процес укладання словників і використання сервісу Mechanical Turk для перевірки їх одноманітності та надійності.

Переклад Д. Попової

Wan, X. Bilingual Co-Training for Sentiment Classification of Chinese Product Reviews [Спільне двомовне навчання для класифікації тональності китайських відгуків на товари] / Xiaojun Wan // Computational linguistics. – 2011. – Vol. 37. – No. 3. – Pages 587–616. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00061#.WIES1H3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00061

Відсутність вивірених тональних словників і корпусів китайської мови уповільнює проведення досліджень, присвячених класифікації тональності китайських текстів. Проте у відкритому доступі в інтернеті є багато англомовних тональних ресурсів. У статті розглядається проблема міжмовної класифікації тональності, яка використовує лише доступні англомовні ресурси для класифікації тональності китайських текстів. Спочатку, просто використовуючи служби машинного перекладу для подолання мовного бар’єру, здійснюється аналіз декількох базових (у тому числі словникових і корпусних) методів міжмовної класифікації тональності, а потім пропонується метод спільного двомовного навчання, який використовує як емоційні оцінки англійських авторів, так і емоційні оцінки китайських авторів, вилучені з додаткових нерозмічених китайських текстів. Результати експерименту із застосуванням двох наборів тестів, свідчать про ефективність запропонованого методу, який може перевершити базові та трансдуктивні методи.

Переклад М. Драчової

Johansson, R. Relational Features in Fine-Grained Opinion Analysis [Реляційні характеристики у точному аналізі думок] / Richard Johansson, Alessandro Moschitti // Computational linguistics. – 2013. – Vol. 39. – No. 3 – Pages 473–509. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00141#.WIETuX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00141

Точні методи аналізу думок часто використовують лінгвістичні характеристики, але не беруть до уваги взаємодію між думками. У статті описано серію експериментів, які свідчать, що реляційні характеристики, які здебільшого є похідними від структур синтаксичної залежності і семантичних ролей, можуть суттєво підвищити продуктивність автоматичних систем у різноманітних завданнях точного аналізу думок: розмітці виразів емоційного ставлення, знаходженні власників думок і визначенні полярностей виразів емоційного ставлення. Ці характеристики дозволяють моделювати способи взаємодії у реченні на довільних відстаннях думок, виражених у дискурсі природною мовою. Використання відношень вимагає одночасного розгляду кількох думок, що ускладнює пошук оптимального аналізу. Проте в якості достатньо точного і надійного наближення може бути використаний переранжувальник.
Здійснено оцінювання великої кількості наборів характеристик і підходів до машинного навчання. У завданні видобування виразів емоційного ставлення найкраща модель показала загальне поліпшення на 10 балів у повноті на корпусі MPQA у порівнянні зі стандартним розмітником послідовностей на основі локальних контекстуальних характеристик, а точність знизилася дуже мало. Значне покращення також спостерігалося у розширенних завданнях, у яких бралися до уваги власники і полярності: відповідно 10 і 7 балів у повноті. Крім того, системи поліпшили опубліковані раніше результати для видобування немаркованих (6 балів по F-метриці) і маркованих за полярністю (10-15 балів) виразів емоційного ставлення. Нарешті, в якості зовнішнього оцінювання видобуті з корпусу MPQA вирази емоційного ставлення були використані у реальних завданнях видобування думок. В усіх розглянутих сценаріях компоненти машинного навчання на основі виразів емоційного ставлення забезпечують статистично значиме поліпшення результатів.

Переклад В. Коломієць

Hassan, A. A Random Walk–Based Model for Identifying Semantic Orientation [Модель встановлення семантичної орієнтації на основі випадкового блукання] / Ahmed Hassan, Amjad Abu-Jbara, Wanchen Lu, Dragomir Radev // Computational linguistics. – 2014. – Vol. 40. – No. 3. – Pages 539–562. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00192#.WIEVLn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00192

Автоматичне встановлення тональності слів є дуже важливою задачею, яка є основним компонентом багатьох систем обробки природної мови, таких як системи класифікації текстів, фільтрування текстів, аналізу оглядів товарів, аналізу результатів опитувань та глибинного аналізу дискусій в режимі онлайн. У статті представлено метод встановлення тональності слів, який визначає полярність будь-якого заданого слова шляхом застосовання моделі випадкового блукання Маркова і великого графа співвіднесеності слів. Модель здатна точно і швидко визначити полярність кожного слова та її інтенсивність. Вона може застосовуватися як у напівконтрольованих умовах з використанням навчальної вибірки розмічених слів, так і в слабоконтрольованих умовах з використанням лише невеликої кількості відібраних слів для встановлення двох класів полярності. Метод протестуваний експериментально із використанням золотеталонного набору позитивно та негативно забарвлених слів із лексикону системи General Inquirer. Також продемонстровано як можна використовувати запропонований метод для класифікації за трьома ознаками, яка окрім позитивно та негативно забарвлених слів визначає нейтральні слова. Проведені експерименти свідчать, що запропонований метод перевершує сучасні методи у напівконтрольованих умовах та досягає тих самих показників, що й найкращі методи, у слабоконтрольованих умовах. На додаток до цього, запропонований метод швидший і не потребує великого корпусу. Також описано модифікації запропонованих методів для визначення полярності іноземних слів та слів, які не входять до вокабулярію.

Переклад М. Погребної

Dong, L. A Statistical Parsing Framework for Sentiment Classification [Статистична модель синтаксичного аналізу для класифікації тональності] / Li Dong, Furu Wei, Shujie Liu, Ming Zhou, Ke Xu // Computational linguistics. – 2015. – Vol. 41. – No. 2. – Pages 293–336. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00221 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00221

У статті представлено статистичну модель синтаксичного аналізу для класифікації тональності на рівні речення. На відміну від попередніх досліджень, у яких для аналізу тональності застосовуються результати синтаксичного аналізу, автори статті створили статистичний аналізатор для безпосереднього аналізу структури тональності речення. Показано, що в аналізі тональності складні явища (наприклад, заперечення, підсилення та контрастність) можна обробляти в такий самий комплексний та ймовірнісним спосіб, що й прості та прямі вирази тональності. Розроблено граматику тональності на основі контекстно-незалежних граматик (КНГ) та подано формальний опис моделі аналізу тональності. Створено модель синтаксичного аналізу, щоб отримати можливі синтаксичні дерева тональності речення, на основі яких пропонується модель полярності для визначення сили тональності та її полярності. Вибір найкращого дерева тональності виконується моделлю ранжування. Тренування синтаксичного аналізатора здійснюється безпосередньо на прикладах речень, розмічених лише мітками модальної полярності, без жодних міток синтаксичної структури або полярності складників речення. Завдяки цьому можна легко отримати навчальні дані. Зокрема, тренування синтаксичного аналізатора тональності здійснюється на великій кількості оціночних речень з рейтингами користувачів в ролі маркерів полярності. Обширні експерименти з існуючими наборами даних для порівняльного аналізу демонструють суттєві покращення в порівнянні з базовими підходами до класифікації тональності.

Переклад М. Дубка

Dras, M. Evaluating Human Pairwise Preference Judgments [Оцінювання парних оціночних суджень експертів] / Mark Dras // Computational linguistics. – 2015. – Vol. 41. – No. 2. – Pages 337–345. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00222 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00222

Важливу роль в опрацюванні природної мови відіграє людська оцінка, часто представлена у формі оціночних суджень. Незважаючи на деякі застосування класичних непараметричних і вузькоспеціалізованих підходів до оцінювання цих видів суджень, існує ціла низка їх досліджень у контексті оцінювання сенсорного розрізнення та людських суджень, які є ключовими в ньому, підкріплена строгою статистичною теорією і програмним забезпеченням у вільному доступі, яку можна використати в опрацюванні природної мови. Досліджено один з підходів, логарифмічні лінійні моделі Бредлі-Террі, який застосовано до вибіркових даних для опрацювання природної мови.

Переклад М. Дубка

Benamara, F. Evaluative Language Beyond Bags of Words: Linguistic Insights and Computational Applications [Оцінювальна лексика поза мішками слів: лінгвістична інформація і комп’ютерні програми] / Farah Benamara, Maite Taboada, Yannick Mathieu // Computational linguistics. – 2017. – Vol. 43. – No. 1. – Pages 201–264. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00278 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00278

Дослідження оцінювання, впливу та суб'єктивності є міждисциплінарним завданням, яке поєднує соціологію, психологію, економіку, лінгвістику та інформатику. Існує низка високоякісних оглядів галузі, виконаних комп’ютерними лінгвістами і мовознавцями. Проте дуже мало оглядів поєднують дві згадані дисципліни, щоб показати користь від лінгвістичних методів для автоматичних систем аналізу тональності. У цьому огляді продемонстровано, що поєднання лінгвістичної, дискурсивної та іншої контекстуальної інформації, разом із статистичним опрацюванням даних, може мати перевагу над підходами, які використовують лише один із цих аспектів. Спочатку подано вичерпне уявлення про оцінювальну лексику як з лінгвістичної, так і з обчислювальної точки зору. Після цього висловлено переконання, що загальноприйнятне обчислювальне визначення поняття оцінювальної лексики не враховує динамічний характер оцінювання, в якому тлумачення певної оцінки залежить від лінгвістичних та позалінгвістичних контекстуальних факторів. Отже, запропоновано динамічне визначення, що включає функції оновлення. Функції оновлення дозволяють включати в обчислення тональності оцінювальних слів або виразів різні контекстуальні аспекти і застосувати їх на всіх рівнях дискурсу. Досліджено кожний рівень і визначено, які мовні аспекти сприяють точному визначенню тональності. Огляд завершено коротким описом можливих майбутніх напрямів аналізу тональності, а також ролі, яку має відігравати дискурсивна і контекстуальна інформація.

Переклад М. Дубка