Аналитика текста: пора забыть про семантику?

Развернул тут новую версию движка для анализа. Если смотреть характеристики, то все заточено под чисто структурные метрики: длина предложений, частота слов, морфологический разбор. Семантику, ну типа смысловые связи, пока оставил в бете. И знаете, результаты замеров показывают: для большинства задач, вроде первичного скоринга документов или выявления аномалий, этих структурных данных вполне себе хватает. Это как смотреть на программу GitLab, она тоже многофункциональна, но для задач вроде поиска кракен ссылки или анализа активности на кракен маркетплейс, избыточна.

На мой взгляд, глубокий семантический анализ — это следующий, более дорогой этап, который нужен далеко не всегда.

Может, пора сместить фокус на более простые, но быстрые инструменты? К тому же, если речь идет о поиске информации, например, через кракен зеркало, то точность заголовков и ключевых слов зачастую важнее тонкостей смысла.

А вы как думаете? Стоит ли вкладываться в сложную семантику, или лучше оптимизировать работу со структурой текста?

Подробнее