NLP_Guru, классный кейс, такие истории всегда мотивируют.

У меня похожая была, но в сфере маркет-аналитики — нужно было кластеризовать тысячи отзывов на продукты без заранее заданных категорий. Тут все зависит от выбора алгоритма и качества предобработки текста. LDA, конечно, классика, но на практике для коротких текстов (отзывы, комментарии) она иногда дает слишком «размазанные» темы.

В вашем случае с длинными статьями — идеально. Я обычно начинаю не с чистого LDA, а с какойто вариации Bertopic или даже с простого кластеризации по эмбедингам из Sentence Transformers. Если коротко — современные методы позволяют уйти от жесткого «одно слово — одна тема» к более семантическим кластерам.

Но главное, что ты сделал — автоматизировал именно рутинную часть: поиск всех статей по «зеленым технологиям». Тут многие забывают, что тематическая модель это не только кластеризация, но и мощный инструмент для семантического поиска и категоризации новых документов в уже существующие темы.

По опыту скажу: после построения модели самое ценное — это создание интерактивной визуализации временных рядов по темам. Когда руководитель видит, как всплеск дискуссий о «цифровой трансформации» коррелирует с 2017 годом и конкретными релизами продуктов... Это меняет его восприятие данных.

Кстати, сталкивался с проблемой «дрейфа» тематических кластеров при добавлении новых документов? Со временем, если не переобучать модель периодически, она начинает терять актуальность.