Цели
Классификация текста является постоянной целью в проектах машинного обучения и типичной задачей для краудсорсинговых платформ. Гибридные подходы, использующие краудсорсинг и машинное обучение, работают лучше, чем любой в отдельности, и помогают снизить затраты на краудсорсинг. Один из способов объединить усилия толпы и машины состоит в том, чтобы алгоритмы выделяли отрывки из текстов и передавали их толпе для классификации. В этой статье мы представляем набор данных для изучения выделения текста и его влияния на классификацию документов.
Описание данных
Набор данных был создан в результате двух серий экспериментов, в ходе которых мы сначала попросили работников: (i) классифицировать документы в соответствии с вопросом об актуальности и выделить части текста, которые подтверждают их решение, и на втором этапе, (ii) оценить актуальность документа но поддерживается подсветкой текста различного качества (шесть сгенерированных человеком и шесть сгенерированных машиной условий выделения). Набор данных содержит документы из двух областей применения: систематические обзоры литературы и обзоры продуктов, три размера документов и три актуальных вопроса разного уровня сложности. Мы ожидаем, что этот набор данных из 27 711 индивидуальных суждений от 1851 работника принесет пользу не только этой конкретной проблемной области, но и более широкому классу классификационных проблем, где наборы данных с краудсорсингом с индивидуальными суждениями недостаточны.
Задача
В этой статье мы представляем наборы данных, полученные из многочисленных краудсорсинговых экспериментов для задач классификации документов. Эти эксперименты напоминают двухэтапный конвейер, который сначала выделяет соответствующие отрывки, а затем классифицирует документы. Наборы данных включают индивидуальные суждения, предоставленные рабочими для обоих этапов нашего конвейера, в общей сложности 27 711 суждений от 1851 работника.
Исследования показали возможность использования неэкспертных аннотаторов в сложных задачах НЛП (1). Классификация текста, в частности, является постоянной целью проектов машинного обучения (ML) и типичной задачей для краудсорсинговых платформ. Гибридные подходы, сочетающие ML и усилия толпы, были предложены для повышения точности и снижения затрат (2, 3, 4). Одна возможность состоит в том, чтобы использовать автоматические методы для выделения соответствующих выдержек в тексте, а затем попросить работников классифицировать. При этом работники могут полагаться на основные моменты и избегать чтения частей текста или игнорировать выделение и читать полный текст. В этом контексте мы проводим краудсорсинговые эксперименты, чтобы изучить влияние выделения текста на производительность человека при выполнении задач классификации (5). В этих экспериментах мы сосредоточились на двух краудсорсинговых задачах: сбор текста и классификация. Задача сбора выделения привела к созданию набора данных, содержащего сгенерированные толпой выделения, которые могут быть полезны, например, исследователям при изучении автоматических методов, таких как средства суммирования текста и модели ответов на вопросы. Наборы классификационных данных могут быть полезны исследователям из сообщества компьютерных вычислений, занимающимся такими проблемами, как оценка и обеспечение качества (6), оптимизация бюджета (7, 8) и поведение работников (9), а также дальнейшее изучение поддержки выделения.
Описание данных
Далее мы описали краудсорсинговые эксперименты, которые генерировали набор данных, а также структуру набора данных.
задача
В наших экспериментах мы просили рабочих оценить, соответствует ли документ определенному вопросу (предикату), дополняя схему задания, найденную в литературе (10, 11). Документы поступают из двух разных областей: систематические обзоры литературы (SLR) и обзоры Amazon. Для области SLR мы рассмотрели два предиката: «Описывает ли документ исследование, в котором участвуют пожилые люди (60+)?» (OA), и «Описывает ли документ исследование, которое включает технологию для социальных взаимодействий онлайн?» (Технология). Для обзоров Amazon мы спросили: «Этот обзор написан на книге?» (АМЗ).
Все задачи выполнялись на краудсорсинговой платформе, рисунок 8 (https://www.figure-eight.com/). И личная информация не была запрошена работникам; мы собирали только метки классов и статистику, связанную с усилиями.
Сбор текстовых моментов
Первым шагом является создание основных моментов. Этот шаг служит основой нашего исследования выделения текста в качестве помощи работникам в задачах классификации. Мы рассмотрели краудсорсинг и ML для создания выделенных фрагментов. Для сгущенных выступлений мы попросили работников классифицировать документы и обосновать свои решения, выделив отрывки из текста. Для сгенерированных машиной основных моментов мы использовали самые современные модели обобщающего анализа и ответов на вопросы. Два эксперта судили о качестве основных моментов, обеспечиваемых толпой и автоматическими методами (у Каппа 0, 87 для ОА, 0, 72 для Тех и 0, 66 для АМЗ). В таблице 1 показаны файлы, содержащие сгенерированные блики (толпа и ML); оба набора данных включают отдельные основные моменты и связанное качество.
Таблица 1 Обзор файлов данных / наборов данных
Таблица в натуральную величину
Классификация с поддержкой выделения
Эксперимент 1
В этом эксперименте мы попросили работников классифицировать документы, оказав дополнительную поддержку, выделив отрывки из текста. Рабочие обрабатывали страницы по три документа каждый, до шести страниц (макет 3 × 6). Мы классифицировали доступные краудсорсинговые данные в соответствии с их качеством и получили шесть экспериментальных условий для нашего исследования. Базовое условие не показывает никакого выделенного текста. 0%, 33%, 66% и 100% показывают блики разного качества. Например, на странице с тремя документами условие 33% показывает одно выделение высокого качества и два выделения низкого качества. Наконец, условие агрегирования объединяет несколько основных моментов, аналогичных агрегированию голосов в задачах краудсорсинга.
Эксперимент 2
Этот эксперимент фокусировался на более длинных документах и страницах с использованием макетов 6 × 6 и 3 × 12 и выделенных толпой объектов. Мы сохраняем базовый уровень как одно экспериментальное условие и вводим качество 83% как другое.
Эксперимент 3
В этом эксперименте использовались сгенерированные машиной блики с использованием макета 3 × 6 и шести условий эксперимента: BertSum, Refresh, Bert-QA, AggrML, 100% ML, базовый уровень. BertSum (12) и Refresh (13) - это методы экстрактивного суммирования, в то время как Bert-QA (14) - это модель вопросов и ответов. AggrML агрегирует выходные данные из трех алгоритмов, а 100% ML использует только машинную подсветку, которая оценивается экспертами как качественная.
Мы рекомендуем читателям проверить (5) для более подробного объяснения экспериментальных настроек. Таблица 1 содержит обзор доступных наборов данных, полученных в результате наших экспериментов.
Ограничения
Набор данных, описанный в этой статье, имеет набор измерений, которые позволяют исследовать подходы, но их нельзя считать всеобъемлющими. Набор данных по-прежнему ограничен двумя типами задач классификации, включает в себя только наиболее широко используемые современные алгоритмы для генерации ярких участков и опирается на два проекта задач для классификации толпы. Кроме того, эксперименты с более длинными страницами и документами (Эксперимент 2) являются продолжением первого эксперимента и сосредоточены только на одном актуальном вопросе.
Эти альтернативы были тщательно отобраны, но более систематические исследования потребуют более глубокого изучения каждого из этих аспектов.
Доступность данных и материалов
Данные, описанные в этом примечании к данным, могут быть свободно и открыто доступны на Figshare (15). Пожалуйста, смотрите Таблицу 1 и список ссылок для деталей и ссылок на данные.
Сокращения
- ML:
- машинное обучение
- SLR:
- систематические обзоры литературы
- OA:
- Актуальность вопроса: «Описывает ли статья исследование, в котором участвуют пожилые люди (60+)? »
- Технология:
- вопрос об актуальности: «Описывает ли документ исследование, в котором используются технологии для социальных взаимодействий в Интернете?»
- АМЗ:
- Актуальность вопроса: «Этот обзор написан на книге?»