Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер»
Пробовал стандартный токенизатор из nltk для английского — он разрывает кириллические слова. Пробовал для русского — игнорирует английские вкрапления или коверкает их. Пытался комбинировать, писать свой простенький на регулярках, но это костыль, который ломается на каждом втором предложении.
Задача — просто корректно разбить текст на слова/токены для последующего анализа. Может, есть какая-то готовая библиотека или подход для такого код-свитчинга? Уже всю голову сломал. Может, кто сталкивался?
Комментарии 2