Коллеги, у меня тут затык, прям руки опускаются. Пытаюсь сделать систему для автоматической классификации текстов, ну типа простенькую, на основе предобученной модели BERT. Все вроде по учебникам — загружаю, токенизирую, скармливаю… А оно фигню какую-то выдает, ну просто вообще не релевантно.
Пробовал разные предобученные модели, русскоязычные в том числе. Экспериментировал с параметрами, оптимизаторами, предобработкой — вообще ничего не помогает. Если смотреть характеристики, качество вообще нулевое, хотя на английском та же самая модель работает вполне сносно. В чем может быть проблема? Может, я что-то упускаю в специфике русского языка, или с предобработкой что-то не так? Подскажите, кто сталкивался.
Может, есть какие-то проверенные методы работы с русским текстом для NLP, которые я не знаю? Буду благодарен за любой совет - хоть куда копать, уже сил нет, реально.
Комментарии 4