Питально-відповідні системи

Mollá, D. Question Answering in Restricted Domains: An Overview [Питально-відповідні системи для обмежених доменів: короткий огляд] / Diego Mollá, José Luis Vicedo // Computational linguistics. – 2007. – Vol. 33. – No. 1. – Pages 41–61. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.1.41#.WIS5kn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.1.41

Тема автоматизації відповідей на питання цікавила дослідників і розробників з моменту появи найперших програм із штучним інтелектом. З часу створення перших таких програм обчислювальна потужність збільшилась і загальна методологія еволюціонувала від створених вручну баз знань про прості домени до використання колекцій текстів в якості основного джерела знань про складніші домени. Проте залишається багато недосліджених проблем. Ця стаття присвячена використанню обмежених доменів у автоматизованих питально-відповідних системах. Стаття містить історичний огляд систем питання-відповідь для обмежених доменів та огляд сучасних методів та додатків, які використовуються в обмежених доменах. Основна особливість систем питання-відповідь у обмежених доменах – це інтеграція предметно-орієнтованої інформації, яка була розроблена або для системи питання-відповідь, або для інших цілей. У статті досліджуються основні методи застосування такої предметно-орієнтованої інформації.

Переклад А. Синящик

Demner-Fushman, D. Answering Clinical Questions with Knowledge-Based and Statistical Techniques [Відповіді на клінічні питання за допомогою методів на основі знань і статистичних методів] / Dina Demner-Fushman, Jimmy Lin // Computational linguistics. – 2007. – Vol. 33. – No. 1. – Pages 63–103. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.1.63#.WIS6G33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.1.63

Сполучення останніх досягнень у дослідженні питально-відповідних систем і доступності унікальних ресурсів, розроблених спеціально для автоматичного семантичного аналізу медичних текстів надає унікальну можливість дослідження складних діалогових систем в області клінічної медицини. У статті описано систему, створену для задоволення інформаційних потреб лікарів, які практикують доказову медицину. Авторами розроблено низку систем автоматичного видобування знань на основі комбінованих, на основі знань і статистичних, методів для автоматичного розпізнавання потрібної медичної інформації у анотаціях у MEDLINE. Видобуті фрагменти є вихідними даними для алгоритму, який оцінює значимість цитат відповідно до структурованих моделей інформаційних потреб згідно з принципами доказової медицини. Починаючи з попереднього списку фрагментів, видобутих за допомогою PubMed, розроблена система може перемістити значимі анотації ближче до початку списку і на їх основі згенерувати відповіді безпосередньо на питання лікарів. У статті описано три різні оцінювання: оцінювання точності систем автоматичного видобування знань, оцінювання завдання переранжування фрагментів і, нарешті, оцінювання відповідей двома лікарями. Експерименти, проведені з використанням набору реальних клінічних питань, свідчать, що наша система значно перевершує вже конкурентноздатні показники PubMed.

Переклад В. Коломієць

Hallett, C. Composing Questions through Conceptual Authoring [Створення питань за допомогою розробки концептів] / Catalina Hallett, Donia Scott, Richard Power // Computational linguistics. – 2007. – Vol. 33. – No. 1. – Pages 105–133. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.1.105#.WIS6233sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.1.105

У статті описується метод вільного утворення складних питань природною мовою, уникаючи типових помилок безкоштовних текстових запитів. Метод на основі розробки концептів призначений для систем питання-відповідь, у яких надійність і прозорість мають важливе значення, але немає можливості достатньо потренувати користувачів в укладанні питань. Цей сценарій зустрічається в більшості корпоративних доменів, особливо в додатках, які намагаються уникнути ризиків. У статті представлено розроблену авторами експериментальну систему: велика база історій хвороб з онкології з інтерфейсом «питання-відповідь». Продемонстровано, що запропонований метод дозволяє користувачам майже без підготовки успішно створювати складні запити.

Переклад А. Синящик

Surdeanu, M. Learning to Rank Answers to Non-Factoid Questions from Web Collections [Навчання ранжуванню відповідей на питання не про факти з веб-бібліотек] / Mihai Surdeanu, Massimiliano Ciaramita, Hugo Zaragoza // Computational linguistics. – 2011. – Vol. 37. – No. 2. – Pages 351–383. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00051#.WIEzq33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00051

У цій роботі досліджується використання лінгвістичних ознак для покращення результативності пошуку, а саме для ранжування відповідей на питання, які не стосуються фактів. У статті показано, що для відбору таких ознак та навчання моделей ранжування, які їх ефективно поєднують, можна використовувати існуючі великі колекції пар «запитання-відповідь» (з соціальних діалогових вебсайтів). Досліджується широке коло типів ознак, деякі з яких вимагають обробки природної мови, а саме: поверхневого розв’язання лексичної омонімії, визначення іменованих сутностей, синтаксичного аналізу та розмітки семантичних ролей. Експерименти свідчать, що лінгвістичні ознаки, за умови їх комбінування, забезпечують значне підвищення точності. Залежно від налаштувань системи було досягнуто покращення від 14% до 21% за показником середнього оберненого рангу і Precision@1, що є одним з найпереконливіших доказів того, що складні лінгвістичні ознаки, такі як значення слова та семантичні ролі, можуть мати суттєвий вплив на широкомаштабний інформаційний пошук.

Переклад О. Мартинюк, М. Погребної

Jansen P. Framing QA as Building and Ranking Intersentence Answer Justifications [Розробка питально-відповідної системи як побудова та ранжування обґрунтування відповідей на рівні тексту] / Peter Jansen, Rebecca Sharp, Mihai Surdeanu, Peter Clark // Computational linguistics. – 2017. – Vol. 43. – No. 2. – Pages 407–449. – Режим доступу до анотації: https://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00287 – Режим доступу до повнотекстової статті: https://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00287

У статті описано питально-відповідний підхід до стандартизованого іспиту з природничих наук, який не тільки визначає правильні відповіді, але й надає переконливі, зрозумілі людині обґрунтування їх правильності. Спочатку цей метод визначає фактичну інформацію, необхідну для відповіді на запитання, використовуючи психолінгвістичні параметри конкретності. Потім ця інформаційна потреба використовується для побудови обґрунтувань відповідей шляхом об’єднання великої кількості речень з різних баз знань за допомогою синтаксичної і лексичної інформації. Після цього відповіді та їх обґрунтування спільно оцінюються за допомогою перцептрону, який розглядає якість обґрунтування як приховану змінну. Для оцінювання якості методу було використано 1000 завдань множинного вибору з екзамену з природничих наук у початковій школі. Було емпірично доведено, що описаний метод дає кращі результати, ніж кілька сильних контрольних систем, зокрема нейромережеві підходи. Найкраща конфігурація правильно відповідає на 44% питань, і найкращі обгрунтування 57% цих правильних відповідей містять переконливі, зрозумілі людині обґрунтування, які пояснюють умовиводи, потрібні для того, щоб дати правильну відповідь. У статті детально описано якість обґрунтувань як у запропонованому методі, так і в сильному контрольному варіанті, а також показано, що ключовим компонентом у задоволенні інформаційної потреби у складних питаннях є об’єднання інформації.

Переклад А. Шульги