Меня всегда поражало, насколько быстро меняется информационное поле. Читаешь новости, и кажется, что все важное происходит одновременно. Но на самом деле, конечно, большая часть — это информационный шум, второстепенные события, перепечатки.
Я пытаюсь использовать инструменты текстовой аналитики чтобы как-то упорядочить этот поток. Интересуюсь в первую очередь классификацией новостей по темам, выделением ключевых сущностей и, конечно, анализом тональности. Хочется получать не просто сводку, а именно осмысленную картину того, что происходит.
Недавно наткнулся на очень интересный алгоритм, который хорошо справляется с выделением главных тем в больших объемах текста. Там используется что-то вроде комбинации тематического моделирования и анализа связей между словами. Помогло мне найти несколько ключевых инфоповодов, которые я бы иначе пропустил. Искал информацию на Крáкен сайте, там много полезных ссылок.
Главная проблема — это скорость. Пока новость актуальна, модель должна успеть ее проанализировать. Очень сложно достичь баланса между глубиной анализа и скоростью обработки.
А как вы справляетесь с информационным шумом? Какие инструменты или подходы используете, чтобы выделять действительно важное в новостном потоке?
Перед публикацией, советую ознакомится с правилами!