Когда твой мониторинг новостей ловит инфоповод раньше всех — это особое чувство

Алексей_МСК

Бизнес_Консультант, насчет широкого набора ключевых слов — не согласен.

В нашем мониторинге регуляторных изменений мы как раз работали с максимально полным словарем сущностей: все упоминаемые в новостях банки, НКО, сервисы. Шум отсеивался не на этапе сбора, а позже.

Замеряли базовую частоту упоминаний за 30 дней.
Фиксировали всплеск, если рост >300% от медианного значения за 6 часов.
Только потом кластеризовали контексты этих всплесков.

Если сужать список на старте, можно пропустить появление нового игрока или непрямое упоминание. По ТТХ нашей системы — точность выросла на 15% после перехода на полный словарь с пост-фильтрацией ;)

Бизнес_Консультант 3 апреля 2026 12:05

Интегратор_Сервисов, интересный подход. Давай по порядку.

Вы упомянули анализ всплесков упоминаний сущностей. Частая ошибка в таких системах — слишком широкий набор ключевых слов, который захватывает много шума.

Вопрос вот какой: как вы формировали этот список сущностей для вашего fintech-проекта? Это был статичный список компаний и терминов, который вы сами подготовили, или алгоритм их выделял динамически из потока данных?

И если динамически, то как он отличал, например, просто частые упоминания "кредита" в общем контексте от упоминаний нового продукта конкретного банка — что именно считалось всплеском для системы?

Алексей_МСК 3 апреля 2026 12:05

Любознательный 3 апреля 2026 12:05

Алексей_МСК, полностью с вами согласен!

У меня тоже был похожий опыт, когда я только начинал разбираться с парсингом новостей. Сначала пытался жестко фильтровать слова на этапе сбора, и система пропускала важное. Потом перешел на ваш подход — собирать ВСЕ, а потом чистить

Помню, один раз так поймал новость про слияние двух небольших банков, о которой вообще никто не писал. Мониторинг поднял ее из кучи шума просто потому, что я не отфильтровал их названия заранее. Это было круто)

Сорян если простой пример, но кмк вы правы.

Документовед 3 апреля 2026 12:05

ну наконец-то кто-то это сказал

Технарь_Макс 6 апреля 2026 21:57

Технарь_Макс

Бизнес_Консультант, насчет "шума" — это зависит от постановки задачи. Если цель — обнаружение инфоповодов, то чем шире охват, тем лучше. Позже уже включается классификация текстов, чтобы отсеять нерелевантное.

В нашем случае, для мониторинга аппаратного обеспечения, мы настроили сбор по базе из 5000+ ключевых слов и синонимов, охватывающих все основные производители и компоненты. На этапе парсинга, каждый документ обогащается метаданными: дата, источник, категория.

Когда нужна именно точность, а не охват, тогда другая история. Но для раннего обнаружения хайпа — чем больше сырых данных, тем лучше.

Алексей_МСК, полностью разделяю ваш подход. Замерял разницу: сбор с жесткой фильтрацией на входе — скорость выше, но пропускается до 15% значимых упоминаний. Собирать все, а потом фильтровать — на 10% медленнее, зато полный охват

DataScientist_Anna 13 апреля 2026 11:23

Алексей_МСК, подход интересный, но вот что думаю по поводу отсева шума позже - это требует хорошей системы классификации текстов. Иначе, получается, весь этот объем данных нужно будет вручную просматривать, а это, мягко говоря, неэффективно.

Если объем данных небольшой — ок, можно и руками.
Если речь про потоковую обработку новостей — нужна автоматизация.

В идеале, конечно, комбинировать оба подхода: максимально широкий словарь сущностей + мощная NLP-система для автоматической фильтрации и классификации. Тогда можно быстро реагировать на важные инфоповоды, получая на выходе только релевантную информацию. Или я чего-то не понимаю? )

sergey2003 19 апреля 2026 17:39

Ооо, да! Это когда ты такой сидишь, кофе пьешь, а тут БАЦ — новость, которую ты ждал. И ты такой: «Я знал!»

Любознательный, я тоже так раньше делал, собирал все подряд, а потом чистил. Но это же столько времени потом на эту чистку уходит, ужас!

Сейчас вроде как-то умнее получается. Может, это какой-то новый вид классификации текстов, который я еще не до конца понял?

Я вот сейчас пытаюсь разобраться, как лучше всего шум отсекать. Есть какие-то идеи, как именно вы это делаете, Алексей_МСК?

Может, есть какие-то продвинутые техники NLP, которые помогают всякий мусор отсеивать, не теряя главное? Подскажите плз, я только начал разбираться во всем этом.

Сорян если тупой вопрос

Как мы внедрили анализ тональности в поддержку и что из этого вышло

Сравнение двух сервисов для тонального анализа: MonkeyLearn vs Aylien — где больше выгоды? — обработка естественного языка

SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

Автоматизация сводок по отчётам: история про то, как чат-бот стал лучшим аналитиком — классификация текстов

Практический гайд по препроцессингу мультиязычных текстов