SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

После долгой работы на версии 3.x решил переехать на свежую SpaCy 4.0 для нового проекта по извлечению сущностей из юридических текстов. Впечатления неоднозначные

Что порадовало: Скорость. Новый трансформерный пайплайн, особенно с GPU, просто летает. Качество моделей для английского (en_core_web_trf) заметно выросло — сущности определяет точнее, лучше справляется с контекстом. Новая система конфигов (config.cfg) в теории дает гибкость в настройке всего пайплайна обучения от и до.

Что огорчило: Эта самая система конфигов. Раньше всё было попроще, а теперь нужно вникать в тонны параметров, чтобы просто дообучить NER-модель. Документация стала монструозной, новичку точно не разобраться. И еще — апгрейд со старых проектов оказался болезненным, много deprecated функций, пришлось переписывать куски кода.

В итоге, если ты делаешь что-то стандартное на английском — SpaCy 4.0 это монстр в хорошем смысле, бери и пользуйся. Если нужна кастомизация под специфичный домен или язык с малыми данными — готовься к сложному и долгому процессу настройки. Инструмент стал профессиональнее, но и порог входа повысил.

Подробнее