Пришлось выбирать между LDA и BERTopic для кластеризации текста. Вот что получилось: LDA быстрее, но BERTopic точнее на больших данных. А вы на что рассчитываете больше? omg na ссылка...
Вопрос: Добро пожаловать! Я строю языковую модель на большом корпусе, а кракен зеркало позволяет мне получать дополнительные данные из заблокированных регионов. Но как быть с мусором и повторами? Советы по очистке? kraken 5at...