Я тут начал разбираться в этой всей автоматической обработке текстов, ну типа NLP всякое, и мне кажется, что мы совсем забыли про базу. Все эти нейронки, трансформеры... они, конечно, крутые, но если текст написан с ошибками, или там всякие жаргонизмы, они часто тупят
Вот, например, классификация текстов. Можно загнать кучу данных в модель, а она выдаст какую-нибудь ерунду, потому что просто не поняла, что написано. Имхо, все эти лингвистические сервисы должны сначала наводить порядок с самим текстом, а потом уже учить модели.
Может, стоит больше внимания уделять именно чистоте и структуре языка, прежде чем лезть в сложные алгоритмы? А вы как думаете? Есть же куча инструментов для текстового анализа, но часто ли их используют перед тем, как запускать машинное обучение? Сорян если тупой вопрос..