Ребят, я просто в отчаянии! Пытаюсь делать классификацию текстов для мультиязычного проекта, но ничего не получается! Пробовал разные NLP библиотеки, даже платные лингвистические сервисы подключал, а результат всё равно никакой....
Задумывались ли вы, насколько далеко зашли современные системы машинного перевода? На практике, они уже способны выдавать тексты, которые трудно отличить от оригинала, написанного человеком. Это ставит под сомнение ценность чисто...
Вот помню, работал я над одним проектом, где нужно было быстро классифицировать огромный массив отзывов на трех языках: английском, испанском и португальском. Задача казалась рутинной, ведь современные NLP-инструменты вроде бы...
Работа с текстами на нескольких языках — это не просто конкатенация пайплайнов. Вот проверенный на практике подход, который убережет от головной боли. Первое и главное: определи язык каждого документа. Не доверяй метаданным....