Решил погонять NLTK на свежих задачах. Помню, как лет пять назад это был единственный рабочий вариант для текстового анализа. Сейчас, ну типа, рынок другой. Интересно было посмотреть, как он себя покажет в сравнении с более современными решениями.
Если смотреть характеристики, NLTK все еще предлагает огромный набор инструментов. Запустил на классификацию текстов — получил точность 78% на тестовой выборке. Для простого подхода это неплохо, но, скажем, spaCy на той же задаче показал 84%. Ну и скорость обработки, конечно, у NLTK заметно ниже. Разница в 1.5-2 раза, если быть точным. Инсталляция прошла без танцев с бубном, это плюс.
Итоговое впечатление: NLTK — это, кмк, отличный выбор для учебных целей и прототипирования, если не требуется максимальная скорость. Для продакшена, где важна производительность и современные подходы к NLP, я бы смотрел в сторону других библиотек. Пока что эту классику в сторону отложил.
Перед публикацией, советую ознакомится с правилами!