Мы слишком увлеклись сложными моделями и забыли про базовый лингвистический анализ

Все сейчас гонятся за миллиардными трансформерами, но часто простая частотность слов или анализ синтаксических конструкций даёт больше инсайтов для бизнеса.

Серьезно. Видел кейс, где компания потратила месяцы на fine-tuning BERT для классификации намерений клиентов. А потом стажер, построив облако тегов и посчитав TF-IDF за день, выявил ключевую болевую точку в продукте, о которой даже не думали.

Сложные модели — это круто, они ловят тонкие зависимости. Но они же — «чёрный ящик». Ты получаешь предсказание, но не всегда понимаешь, почему. А старый добрый анализ n-грамм, зависимостей или даже семантических полей может дать понятные, осязаемые результаты, с которыми может работать даже не-технарь.

Мне кажется, баланс сместился. Не стоит пренебрегать фундаментом в погоне за передним краем. А вы как думаете? Часто ли возвращаетесь к «классическим» методам NLP в своих проектах?

Подробнее