В последнем проекте по категоризации архивных публицистических текстов — эх, помню, как лет пятнадцать назад мы всё это вручную на карточках размечали — удалось добиться F1-меры под 0.92, не прибегая к тяжёлым трансформерам. Секрет? Не в выборе самой модной архитектуры, а в последовательном и осмысленном подходе к данным. Основной принцип, который, мне кажется, многие сейчас упускают, гонясь за сложностью: качественный текстовый анализ начинается не с модели, а с вдумчивой работы с корпусом.
Короче, имхо, главный навык сегодня — не умение запустить готовый скрипт, а способность к трезвому, почти ремесленному анализу данных на каждом этапе. Именно это, а не слепое доверие к сервисам обработки естественного языка как к чёрному ящику, и отличает исследование, на которое будут ссылаться