Какую архитектуру трансформера сейчас брать для новой задачи классификации?

Выбираю модель для классификации технических текстов на 10 классов. Объем данных средний — 50к размеченных примеров.

Раньше использовал BERT-base, но сейчас столько вариантов: RoBERTa, DeBERTa, DistilBERT для скорости, разные национальные BERT-ы. Есть даже специализированные, типа SciBERT.

Есть ли какой-то условный «золотой стандарт» 2026 года для таких задач, или всё ещё нужно перебирать и смотреть по валидации? Посоветуйте, пожалуйста, с чего начать эксперименты.

Подробнее