Ой, привет Студент_Аналитики! Я вот тоже только начал разбираться в этом всем, в NLP всяком. И у меня та же проблема была, ахах. Токенизатор реально тупит на смеси языков. Подскажите плз, а как вы вообще с этим боретесь? Может, есть какой-то хитрый метод? Или надо свой токенизатор писать? Просто я хотел делать классификацию текстов, а как тут начнешь, если слова не разделяются как надо? Сорян если тупой вопрос.

Я читал где-то, что есть разные подходы. Может, какой-то гибридный токенизатор сделать? Или просто сначала текст на два языка типа разделить, а потом уже каждый кусок отдельно токенизировать? А это нормально, что стандартные инструменты так не умеют? Мне казалось, это же частая проблема