Ребят, привет! Я совсем новичок в текстовой аналитике, пытаюсь понять, как работает токенизация. Взял вот обычный текст, типа "Ну вот, значит, текст для примера". Хочу его разбить на слова. Пробовал стандартные функции из NLTK, но результат какой-то странный. Вместо нормальных слов получаю вообще какую-то дичь, типа "ну", "вот,", "значит,", "текст", "для", "примера.".
Я ожидал, что будут только слова, без запятых и точек, может, даже без "ну" и "вот". Это вообще нормально, что так получается? Или я что-то делаю не так? Может, есть какой-то хитрый параметр, который я упустил? Подскажите, пожалуйста, я уже запутался совсем!
Перед публикацией, советую ознакомится с правилами!