Тот случай, когда NLP меня чуть не сломал...
Решил попробовать текстовый анализ для своего небольшого проекта. Нашел какой-то онлайн сервис, там обещали классификацию текстов по эмоциям – простенький NLP, казалось бы.
Загрузил свою статью, пару постов из соцсетей. Жду. Система выдала: основной эмоциональный профиль – «агрессия» и «раздражение». Я чуть не лопнул. Это была статья про преимущества местного фермерского рынка, дружелюбная и нейтральная. Ахах.
Написал в поддержку. Ответ: «алгоритм обучен на общих данных, возможны погрешности». Короче, отмазались. Я тогда начал копать. Смотрел, какие слова могли вызвать такой вывод. Ну типа «свежий», «натуральный», «прямо с поля». Откуда инфа, что это агрессивные концепты? Не факт.
Потом нашел в их документации упоминание, что модель была обучена на англоязычных корпусах и просто адаптирована для русского без тонкой калибровки. Вот и весь сказ. Обработка естественного языка оказалась довольно грубой. Кмк, многие сервисы так работают – продают мощь, а внутри костыли.
Чем закончилось? Я на том проекте отказался от автоматической классификации. Сомневаюсь теперь в подобных готовых решениях. Если нет глубокого понимания, как модель работает на конкретных данных, лучше не рисковать. Вывод спорный, конечно, но мой.

Комментарии 2