Инструмент для аннотации текстов Prodigy — дорого, но оно того стоит?
Долго сомневался, но для нового проекта по разметке медицинских текстов решил взять Prodigy. Делимся впечатлениями после месяца активного использования.
Сначала про ценник — да, это самый дорогой инструмент в подборке. И подписка, ох уж эта подписка. Но.
Плюсы, которые перевесили: Невероятная скорость разметки благодаря активному обучению. Ты не просто кликаешь на текст, а модель после каждого твоего действия предлагает следующие наиболее «полезные» для нее примеры. Это сократило объём необходимой ручной разметки в разы, наверное, в три. Встроенные рецепты для работы с трансформерами (например, для NER или text categorization) — просто волшебство. Запустил, и через 15 минут уже работает интерактивный цикл обучения и разметки. Качество итоговой модели, обученной на таких «умных» данных, оказалось выше, чем на данных, размеченных традиционно.
Минусы: Цена, о ней уже сказал. И привязка к экосистеме SpaCy. Если ты не используешь SpaCy в проекте, часть фишек будет избыточна. Ну и требует некоторого времени, чтобы понять философию «рецептов»
Вердикт: Если у тебя серьезный проект с большими объемами текстов для разметки, бюджет позволяет, и ты хочешь сэкономить самое ценное — время экспертов-аннотаторов, то Prodigy это must-have. Для разовых или небольших задач, возможно, есть смысл поискать более простые и дешёвые альтернативы вроде Label Studio