Чистка текста — это основа всей работы. Многие новички думают, что это просто удаление мусора. Нет. Это глубокая подготовка. Если проигнорируете это, получите полный шум на выходе.
Нужно соблюдать порядок действий. Сначала соберите все данные из разных источников. Потом проверьте кодировку. UTF-8 обязателен в 2026 году.
Вот основные этапы:
Короче, не торопитесь. Лучше потратить час на чистку, чем полгода на дообучение. Модель запомнит мусор и выдаст странный результат. Проверьте вручную хотя бы пару тысяч записей.
Используйте готовые скрипты, но настройте под себя. Удачи с проектом!
Перед публикацией, советую ознакомится с правилами!