Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер» Пробовал стандартный токенизатор из nltk для английского — он разрывает...
Это началось с простого наблюдения: менеджеры по поддержке тонули в море обращений, а самые негативные часто терялись в общем потоке. Ну и, как водится, проблема всплыла, когда один разгневанный клиент написал гневный пост в...