Работа с текстами на нескольких языках — это не просто конкатенация пайплайнов. Вот проверенный на практике подход, который убережет от головной боли.
Первое и главное: определи язык каждого документа. Не доверяй метаданным. Используй библиотеки типа langdetect или fasttext. Раздели корпус на языковые группы. Дальнейшая обработка для каждой группы своя.
Шаги для каждой языковой группы:
Главный секрет — модульность. Не пытайся запихнуть все в один скрипт. Сделай отдельные функции для каждого языка и управляй ими через конфиг.