Токенизатор сходит с ума на смешанном англо-русском контенте! Помогите!

Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер»

Пробовал стандартный токенизатор из nltk для английского — он разрывает кириллические слова. Пробовал для русского — игнорирует английские вкрапления или коверкает их. Пытался комбинировать, писать свой простенький на регулярках, но это костыль, который ломается на каждом втором предложении.

Задача — просто корректно разбить текст на слова/токены для последующего анализа. Может, есть какая-то готовая библиотека или подход для такого код-свитчинга? Уже всю голову сломал. Может, кто сталкивался?

Общение