Eugenio, B. D. The Kappa Statistic: A Second Look [Коєфіцієнт Каппа: новий погляд] / Barbara Di Eugenio, Michael Glass // Computational linguistics. – 2004. – Vol. 30. – No. 1. – Pages 95–101. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120104773633402#.WIHnYH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120104773633402
Протягом останніх років коефіцієнт узгодженості Каппа фактично став стандартом у оцінюванні узгодженості між анотаторами у завданнях анотування. У статті розглядаються фактори, які впливають на κ і які здебільшого ігнорувались дослідниками. По-перше, аналізуються припущення, покладені в основу різних обчислень очікуваного компонента узгодженості κ. По-друге, проаналізовано, як показник κ залежить від розповсюдженості й упередженості.
Протягом останніх років коефіцієнт узгодженості Каппа фактично став стандартом у оцінюванні узгодженості між анотаторами у завданнях анотування. У статті розглядаються фактори, які впливають на κ і які здебільшого ігнорувались дослідниками. По-перше, аналізуються припущення, покладені в основу різних обчислень очікуваного компонента узгодженості κ. По-друге, проаналізовано, як показник κ залежить від розповсюдженості й упередженості.
Переклад В. Коломієць
Craggs, R. Evaluating Discourse and Dialogue Coding Schemes [Оцінювання схем анотування дискурсу і діалогу] / Richard Craggs, Mary McGee Wood // Computational linguistics. – 2005. – Vol. 31. – No. 3. – Pages 289–296. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/089120105774321109#.WIHovn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/089120105774321109
В оцінюванні схем анотування дискурсу і діалогу важливу роль грає статистика узгодженості. Проте відповідні методи оцінювання узгодженості між анотаторами і способи інтерпретації їх результатів потребують глибшого розуміння. У статті описується роль методів оцінювання узгодженості між анотаторами і стверджується, що у дослідженнях надійності для оцінювання узгодженності підходять лише методи з поправкою на випадковість, які передбачають стандартний розподіл міток для всіх анотаторів. Потім наводяться рекомендації, як робити висновки про надійність на основі результатів статистики узгодженості.
В оцінюванні схем анотування дискурсу і діалогу важливу роль грає статистика узгодженості. Проте відповідні методи оцінювання узгодженості між анотаторами і способи інтерпретації їх результатів потребують глибшого розуміння. У статті описується роль методів оцінювання узгодженості між анотаторами і стверджується, що у дослідженнях надійності для оцінювання узгодженності підходять лише методи з поправкою на випадковість, які передбачають стандартний розподіл міток для всіх анотаторів. Потім наводяться рекомендації, як робити висновки про надійність на основі результатів статистики узгодженості.
Переклад В. Коломієць
Navigli, R. Consistent Validation of Manual and Automatic Sense Annotations with the Aid of Semantic Graphs [Послідовна перевірка валідності ручного і автоматичного анотування значень за допомогою семантичних графів] / Roberto Navigli // Computational linguistics. – 2006. – Vol. 32. – No. 2. – Pages 273–281. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.2.273#.WH4Z633sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2006.32.2.273
Загальновизнано, що завдання анотування текстів значеннями із електронного словника є складним і часто суб’єктивним. Хоча для подолання розбіжностей між анотуванням значень можуть використовуватись методики типу міри узгодженості між анотаторами і голосування, немає гарантії послідовності у виборі значень відносно словника посилань.
У статті описано візуальний інструмент для перевірки ручного і автоматичного анотування значень під назвою Valido, який вирівнює можливі розбіжності і забезпечує послідовність рішень за допомогою моделей семантичних взаємовідносин.
Загальновизнано, що завдання анотування текстів значеннями із електронного словника є складним і часто суб’єктивним. Хоча для подолання розбіжностей між анотуванням значень можуть використовуватись методики типу міри узгодженості між анотаторами і голосування, немає гарантії послідовності у виборі значень відносно словника посилань.
У статті описано візуальний інструмент для перевірки ручного і автоматичного анотування значень під назвою Valido, який вирівнює можливі розбіжності і забезпечує послідовність рішень за допомогою моделей семантичних взаємовідносин.
Переклад В. Коломієць
Bayerl, P. S. Identifying Sources of Disagreement: Generalizability Theory in Manual Annotation Studies [Пошук причин неузгодженості: теорія узагальнюваності у дослідженнях ручного анотування] / Petra Saskia Bayerl, Karsten Ingmar Paul // Computational linguistics. – 2007. – Vol. 33. – No. 1. – Pages 3–8. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2007.33.1.3#.WIHpZ33sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2007.33.1.3
Багато проектів, пов’язаних з анотуванням, показали, що якість здійсненого вручну анотування часто є нижчою, ніж потрібно для надійного аналізу даних. Тому актуальним завданням є визначення основних причин низької якості анотування. Цінним інструментом для його вирішення є теорія узагальнення, адже вона дозволяє диференціювати і детально аналізувати фактори, від яких залежить якість анотації. У статті розглядаються основні поняття теорії узагальнення і наводиться приклад її застосування на основі опублікованих матеріалів.
Багато проектів, пов’язаних з анотуванням, показали, що якість здійсненого вручну анотування часто є нижчою, ніж потрібно для надійного аналізу даних. Тому актуальним завданням є визначення основних причин низької якості анотування. Цінним інструментом для його вирішення є теорія узагальнення, адже вона дозволяє диференціювати і детально аналізувати фактори, від яких залежить якість анотації. У статті розглядаються основні поняття теорії узагальнення і наводиться приклад її застосування на основі опублікованих матеріалів.
Переклад А. Синящик
Reidsma, D. Reliability Measurement without Limits [Оцінювання надійності без обмежень] / Dennis Reidsma, Jean Carletta // Computational linguistics. – 2008. – Vol. 34. – No. 3. – Pages 319–326. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2008.34.3.319#.WIEKjn3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.3.319
У комп’ютерній лінгвістиці уважається, що кількісна оцінка надійності якогось статистичного показника, наприклад κ, 0,8 гарантує придатність закодованих вручну даних для певної мети, від 0,67 до 0,8 є достатньою, а нижчі значення − сумнівними. У статті показано, що основне застосування цих даних, машинне навчання, допускає дані з низьким рівнем надійності, якщо будь-яка неузгодженість між анотаторами виглядає як випадковий шум. Проте, коли неузгодженість починає виникати регулярно, комп’ютер може врахувати їх так само, як враховує справжні закономірності у даних, через що результати виглядатимуть краще, ніж вони є насправді. Через велику кількість показників надійності, які зараз визнаються в цій області, неузгодженість може викликати значне підвищення результатів і навіть показник 0,8 не зможе гарантувати, що результати, які здаються хорошими, дійсно є такими. Хоча це висновок на основі здорового глузду, він впливає на особливості роботи комп’ютерних лінгвістів. Вони, принаймні, повинні шукати закономірності у неузгодженості між анотаторами і оцінювати їх наслідки.
У комп’ютерній лінгвістиці уважається, що кількісна оцінка надійності якогось статистичного показника, наприклад κ, 0,8 гарантує придатність закодованих вручну даних для певної мети, від 0,67 до 0,8 є достатньою, а нижчі значення − сумнівними. У статті показано, що основне застосування цих даних, машинне навчання, допускає дані з низьким рівнем надійності, якщо будь-яка неузгодженість між анотаторами виглядає як випадковий шум. Проте, коли неузгодженість починає виникати регулярно, комп’ютер може врахувати їх так само, як враховує справжні закономірності у даних, через що результати виглядатимуть краще, ніж вони є насправді. Через велику кількість показників надійності, які зараз визнаються в цій області, неузгодженість може викликати значне підвищення результатів і навіть показник 0,8 не зможе гарантувати, що результати, які здаються хорошими, дійсно є такими. Хоча це висновок на основі здорового глузду, він впливає на особливості роботи комп’ютерних лінгвістів. Вони, принаймні, повинні шукати закономірності у неузгодженості між анотаторами і оцінювати їх наслідки.
Переклад В. Коломієць
Artstein, R. Inter-Coder Agreement for Computational Linguistics [Оцінка узгодженості між анотаторами у комп’ютерній лінгвістиці] / Ron Artstein, Massimo Poesio // Computational linguistics. – 2008. – Vol. 34. – No. 4. – Pages 555–596. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.07-034-R2#.WIHqOX3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.07-034-R2
У статті досліджено методи оцінки узгодженості між анотаторами корпусів. Показано математику та базові припущення коефіцієнтів узгодженості, зокрема альфи Криппендорфа, а також пі Скотта і каппи Коена, проаналізовано використання коефіцієнтів у кількох завданнях анотування. Стверджується, що зважені, альфаподібні коефіцієнти, які традиційно застосовуються у комп’ютерній лінгвістиці рідше, ніж каппаподібні мірки, можуть бути більш прийнятними для багатьох анотувань корпусів, але їх використання ще більше ускладнює інтерпретацію значення коефіцієнта.
У статті досліджено методи оцінки узгодженості між анотаторами корпусів. Показано математику та базові припущення коефіцієнтів узгодженості, зокрема альфи Криппендорфа, а також пі Скотта і каппи Коена, проаналізовано використання коефіцієнтів у кількох завданнях анотування. Стверджується, що зважені, альфаподібні коефіцієнти, які традиційно застосовуються у комп’ютерній лінгвістиці рідше, ніж каппаподібні мірки, можуть бути більш прийнятними для багатьох анотувань корпусів, але їх використання ще більше ускладнює інтерпретацію значення коефіцієнта.
Переклад В. Коломієць
Klebanov, B. B. From Annotator Agreement to Noise Models [Від показника узгодженості між розмітниками до шумових моделей] / Beata Beigman Klebanov, Eyal Beigman // Computational linguistics. – 2009. – Vol. 35. – No. 4. – Pages 495–503. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/coli.2009.35.4.35402#.WIXUQH3sSGA – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35402
У статті обговорюється перехід від анотованих даних до золотого стандарту, тобто до підвибірки, яка з високою достовірністю є достатньо вільною від шумів. За відсутності відповідного повторного тлумачення показники узгодженості свідчать, що за якістю набір даних не є еталоном. Високий показник узгодженості не є ані достатнім, ані необхідним для виокремлення з анотованого матеріалу деякої кількості достовірних даних. Розроблено математичну базу для оцінки рівня шуму узгодженої підвибірки анотованих даних, що допомагає зважено підходити до виділення еталону.
У статті обговорюється перехід від анотованих даних до золотого стандарту, тобто до підвибірки, яка з високою достовірністю є достатньо вільною від шумів. За відсутності відповідного повторного тлумачення показники узгодженості свідчать, що за якістю набір даних не є еталоном. Високий показник узгодженості не є ані достатнім, ані необхідним для виокремлення з анотованого матеріалу деякої кількості достовірних даних. Розроблено математичну базу для оцінки рівня шуму узгодженої підвибірки анотованих даних, що допомагає зважено підходити до виділення еталону.
Переклад М. Погребної, І. Снєгурова
Bayerl, S. P. What Determines Inter-Coder Agreement in Manual Annotations? A Meta-Analytic Investigation [Що впливає на узгодженість між розмітниками? Металінгвістичне дослідження] / Petra Saskia Bayerl, Karsten Ingmar Paul // Computational linguistics. – 2011. – Vol. 37. – No. 4. – Pages 699–725. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00074#.WIHr0X3sSGA – Режим доступу до повнотекстової статті:
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00074
Останні дослідження узгодженості розмітників в основному стосувалися обчислень і інтерпретації, а також правильного вибору індексів. Хоча такі дослідження важливі, вони враховують лише «кінець» історії, а саме, що робити, коли зібрано дані. На нашу думку, не менш важливо знати, перш за все, як досягається узгодженість і які фактори впливають на узгодженість розмітників у процесі анотування, оскільки ця інформація може лягти в основу конкретних рекомендацій щодо планування і організації проектів анотування. Для того щоб з’ясувати, чи існують фактори, які постійно впливають на узгодженість розмітників, було виконано метааналітичний аналіз досліджень анотування, які містили відсотки узгодженості. Метааналіз, здійснений на основі 346 індексів узгодженості, узагальнив фактори, згадані у 96 дослідженнях анотування з трьох предметних областей (розв’язання семантичної неоднозначности, просодичних транскрипцій і фонетичних транскрипцій). Проведений аналіз виявив сім факторів, які впливають на опубліковані показники узгодженості: предметна область анотування, число категорій у схемі анотування, кількість розмітників у проекті, попереднє навчання розмітників, інтенсивність навчання розмітників, мета анотування, а також метод, використаний для підрахунку розбіжностей процентних долей. На основі отриманих результатів розроблено практичні рекомендації щодо оцінювання, інтерпретації, обчислення і опису узгодженості розмітників. Також коротко проаналізовано теоретичне значення поняття якості анотування.
http://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00074
Останні дослідження узгодженості розмітників в основному стосувалися обчислень і інтерпретації, а також правильного вибору індексів. Хоча такі дослідження важливі, вони враховують лише «кінець» історії, а саме, що робити, коли зібрано дані. На нашу думку, не менш важливо знати, перш за все, як досягається узгодженість і які фактори впливають на узгодженість розмітників у процесі анотування, оскільки ця інформація може лягти в основу конкретних рекомендацій щодо планування і організації проектів анотування. Для того щоб з’ясувати, чи існують фактори, які постійно впливають на узгодженість розмітників, було виконано метааналітичний аналіз досліджень анотування, які містили відсотки узгодженості. Метааналіз, здійснений на основі 346 індексів узгодженості, узагальнив фактори, згадані у 96 дослідженнях анотування з трьох предметних областей (розв’язання семантичної неоднозначности, просодичних транскрипцій і фонетичних транскрипцій). Проведений аналіз виявив сім факторів, які впливають на опубліковані показники узгодженості: предметна область анотування, число категорій у схемі анотування, кількість розмітників у проекті, попереднє навчання розмітників, інтенсивність навчання розмітників, мета анотування, а також метод, використаний для підрахунку розбіжностей процентних долей. На основі отриманих результатів розроблено практичні рекомендації щодо оцінювання, інтерпретації, обчислення і опису узгодженості розмітників. Також коротко проаналізовано теоретичне значення поняття якості анотування.
Переклад В. Коломієць
Jiang, W. Automatic Adaptation of Annotations [Автоматичне адаптування розмітки] / Wenbin Jiang, Yajuan Lü, Liang Huang, Qun Liu // Computational linguistics. – 2015. – Vol. 41. – No. 1. – Pages 119–147. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00210 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00210
Розмічені вручну корпуси текстів є незамінними ресурсами, проте для багатьох завдань розмічування, таких як створення банків дерев, існує чимало корпусів з несумісними принципами розмічування. Це призводить до неефективного використання людського досвіду, проте проблему можна вирішити шляхом інтеграції знань у корпуси з різними принципами розмічування. У статті описано проблему адаптування розміток і внутрішні принципи її розв’язання і представлено серію послідовно вдосконалених моделей, які можуть автоматично адаптувати розміток.
Створені алгоритми оцінено на завданнях із сегментації слів китайської мови та синтаксичного аналізу на основі граматики залежностей. Оскільки немає універсальних правил сегментації через відсутність морфології у китайській мові, для сегментації слів адаптовано розмітку із значно більшого корпусу People’s Daily для меншого, але більш популярного корпусу Penn Chinese Treebank. Для синтаксичного аналізу на основі граматики залежностей адаптовано розмітку з корпусу Penn Chinese Treebank для семантично-орієнтованого корпусу Dependency Treebank, анотованого з використанням суттєво відмінних принципів розмічування. В обох експериментах автоматичне адаптування розміток дало позитивні результати, забезпечивши сучасний рівень ефективності, незважаючи на використання виключно локальних категорій у машинному навчанні.
Розмічені вручну корпуси текстів є незамінними ресурсами, проте для багатьох завдань розмічування, таких як створення банків дерев, існує чимало корпусів з несумісними принципами розмічування. Це призводить до неефективного використання людського досвіду, проте проблему можна вирішити шляхом інтеграції знань у корпуси з різними принципами розмічування. У статті описано проблему адаптування розміток і внутрішні принципи її розв’язання і представлено серію послідовно вдосконалених моделей, які можуть автоматично адаптувати розміток.
Створені алгоритми оцінено на завданнях із сегментації слів китайської мови та синтаксичного аналізу на основі граматики залежностей. Оскільки немає універсальних правил сегментації через відсутність морфології у китайській мові, для сегментації слів адаптовано розмітку із значно більшого корпусу People’s Daily для меншого, але більш популярного корпусу Penn Chinese Treebank. Для синтаксичного аналізу на основі граматики залежностей адаптовано розмітку з корпусу Penn Chinese Treebank для семантично-орієнтованого корпусу Dependency Treebank, анотованого з використанням суттєво відмінних принципів розмічування. В обох експериментах автоматичне адаптування розміток дало позитивні результати, забезпечивши сучасний рівень ефективності, незважаючи на використання виключно локальних категорій у машинному навчанні.
Переклад М. Дубка
Mathet, Y. The Unified and Holistic Method Gamma (γ) for Inter-Annotator Agreement Measure and Alignment [Гамма (γ) уніфікованого й цілісного методу визначення та вирівнювання узгодженості між розмітниками] / Yann Mathet, Antoine Widlöcher, Jean-Philippe Métivier // Computational linguistics. – 2015. – Vol. 41. – No. 3. – Pages 437–479. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00227 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00227
Вже більше 15 років для перевірки достовірності процесів розмічування в комп’ютерній лінгвістиці широко використовуються міри узгодженості. Хоча категоризуванню було присвячено багато уваги, уніфікування розглядається в меншій кількості досліджень, а при об’єднанні обох парадигм є доступними і згадуються ще менше методів. Стаття має три цілі. По-перше, стверджується, що для того, щоб впоратися з уніфікуванням, міри вирівнювання та узгодженості слід розглядати як єдиний процес, оскільки відповідна міра повинна спиратися на вирівнювання одиниць, запропоноване різними розмітниками, і це вирівнювання повинне вираховуватись згідно з принципами конкретної міри. По-друге, запропоновано нову універсальну міру γ, яка відповідає цій вимозі і враховує обидві парадигми, і описано її впровадження. По-третє, показано, що при одночасному застосуванні двох парадигм цей новий метод працює так само добре, як і інші спеціалізовані методи категоризування або сегментування, а може навіть краще.
Вже більше 15 років для перевірки достовірності процесів розмічування в комп’ютерній лінгвістиці широко використовуються міри узгодженості. Хоча категоризуванню було присвячено багато уваги, уніфікування розглядається в меншій кількості досліджень, а при об’єднанні обох парадигм є доступними і згадуються ще менше методів. Стаття має три цілі. По-перше, стверджується, що для того, щоб впоратися з уніфікуванням, міри вирівнювання та узгодженості слід розглядати як єдиний процес, оскільки відповідна міра повинна спиратися на вирівнювання одиниць, запропоноване різними розмітниками, і це вирівнювання повинне вираховуватись згідно з принципами конкретної міри. По-друге, запропоновано нову універсальну міру γ, яка відповідає цій вимозі і враховує обидві парадигми, і описано її впровадження. По-третє, показано, що при одночасному застосуванні двох парадигм цей новий метод працює так само добре, як і інші спеціалізовані методи категоризування або сегментування, а може навіть краще.
Переклад М. Дубка
Mathet, Y. The Agreement Measure γcat a Complement to γ Focused on Categorization of a Continuum [Показник узгодженості γcat, додаток до γ, призначений для категоризації континууму] / Yann Mathet // Computational linguistics. – 2017. – Vol. 43. – No. 3. – Pages 661–681. – Режим доступу до анотації: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00296 – Режим доступу до повнотекстової статті: http://www.mitpressjournals.org/doi/full/10.1162/COLI_a_00296
Оцінювання узгодженості, коли кілька розмітників вільно розташовують одиниці різних розмірів і категорій на континуумі, є складним завданням через розбіжності як у розташуванні, так і в класифікації за категоріями. Новий показник узгодженостіγ пропонує комплексне рішення, яке враховує і розташування, і категорії. У статті запропоновано додатковий коефіцієнт γcat, який доповнює γ оцінювання узгодженості у категоризації континууму, ігноруючи при цьому розбіжності в розташуванні. При застосуванні виключно до класифікації за категоріями (з попередньо визначеними одиницями) γcat діє так само, як і відомий спеціальний показник α Кріппендорфа, навіть при відсутніх значеннях, що доводить його сталість. Також запропоновано варіацію γcat, яка забезпечує всебічне оцінювання класифікації на категорії для кожної окремої категорії. Всю множину коефіцієнтів γ реалізовано у вільному програмному забезпеченні.
Оцінювання узгодженості, коли кілька розмітників вільно розташовують одиниці різних розмірів і категорій на континуумі, є складним завданням через розбіжності як у розташуванні, так і в класифікації за категоріями. Новий показник узгодженостіγ пропонує комплексне рішення, яке враховує і розташування, і категорії. У статті запропоновано додатковий коефіцієнт γcat, який доповнює γ оцінювання узгодженості у категоризації континууму, ігноруючи при цьому розбіжності в розташуванні. При застосуванні виключно до класифікації за категоріями (з попередньо визначеними одиницями) γcat діє так само, як і відомий спеціальний показник α Кріппендорфа, навіть при відсутніх значеннях, що доводить його сталість. Також запропоновано варіацію γcat, яка забезпечує всебічне оцінювання класифікації на категорії для кожної окремої категорії. Всю множину коефіцієнтів γ реалізовано у вільному програмному забезпеченні.
Переклад М. Дубка