Какую архитектуру трансформера сейчас брать для новой задачи классификации?
Выбираю модель для классификации технических текстов на 10 классов. Объем данных средний — 50к размеченных примеров.
Раньше использовал BERT-base, но сейчас столько вариантов: RoBERTa, DeBERTa, DistilBERT для скорости, разные национальные BERT-ы. Есть даже специализированные, типа SciBERT.
Есть ли какой-то условный «золотой стандарт» 2026 года для таких задач, или всё ещё нужно перебирать и смотреть по валидации? Посоветуйте, пожалуйста, с чего начать эксперименты.