Как НЕ утонуть в море текста: 3 кита текстовой аналитики
Все эти модные словечки вроде NLP, текстовый анализ... Звучит красиво, но на деле? Столько инфы, что башка кругом идет. У меня тут пара мыслей накопилась, как хоть как-то порядок навести. Без воды, чисто по делу.
- Начни с цели. Вот тебе вопрос: ЧТО ты хочешь от этих текстов узнать? Просто посчитать? Выделить главное? Или понять, кто там какое мнение высказал? Без цели ты будешь копать в никуда. Например, тебе нужна классификация текстов по тональности, или надо вычленить ключевые сущности, или просто понять, о чем вообще люди говорят. Определись, короче.
- Выбери инструмент. Сервисов для обработки естественного языка — вагон и маленькая тележка. Какие-то платные, какие-то бесплатные, какие-то проще, какие-то сложнее. Тут главное — не вестись на самую «навороченную» штуку, если тебе она не по зубам. Имей в виду, что даже самые простые лингвистические сервисы могут дать неплохой результат, если правильно их настроить. Попробовал — не пошло? Меняй. У каждой задачи свои инструменты.
- Не бойся экспериментировать (и ошибаться). Серьезно. Никто с первого раза не попадает в яблочко. Попробуй разбить задачу на мелкие этапы. Прогони маленький кусочек данных через разные подходы. Сравнивай результаты. Где-то инфа может быть недостоверной, где-то алгоритм тупит. Смотри, что работает, а что нет. Имхо, это самый верный путь
А пруфы? Ну, это мой личный опыт. Я тоже раньше думал, что вот сейчас запущу супер-пупер NLP-движок и все само собой разрулится. Ага, щас. Оказалось, что главное — это четко понимать, ЧТО ты делаешь и ЗАЧЕМ. Остальное — дело техники.