Ну вот реально, после BERT’а какой-то прорыв случился. Эти трансформеры – это ж магия! Раньше модели были такие, ну типа, ограниченные, а сейчас понимание контекста на совершенно другом уровне. Вот если взять тот же RuBERT или LaBSE – они же тянут кучу задач, от перевода до суммаризации. И это ведь только начало, имхо.
Конечно, есть минусы: модели огромные, требуют мощных железок, да и объяснить, почему модель выдала именно такой ответ, бывает сложно. Но прогресс налицо. А вы как думаете, действительно ли эти архитектуры – новый стандарт, или это просто очередной хайп?
Перед публикацией, советую ознакомится с правилами!