Автоматическая классификация документов: моя боль и страдания

Практическое применение / Бизнес-аналитика и обработка документов

Всем привет! Накипело, сил нет. Работаю в компании, где куча бумаг, которые надо бы перевести в цифровой вид и рассортировать по категориям. Руками это делать – ад кромешный, сам понимаешь. Решил автоматизировать. Начал с того,...

Как отобрать нужные темы из гигантского массива текстов? — как зайти на Крáкен

Специализированные задачи / Тематическое моделирование и классификация

Всем привет! Столкнулся с такой задачей: есть терабайты логов, куча всяких разговоров, нужно выцепить только то, что касается разработки новых фич. Не просто ключевые слова, а именно смысловые блоки. Вот мой пошаговый план: 1....

Обзор инструмента для автоматической классификации входящих писем

Практическое применение / Бизнес-аналитика и обработка документов

Недавно пришлось выбирать и тестировать сервис для автоматического распределения входящей корреспонденции в нашей компании. Задача стояла такая: обрабатывать десятки тысяч писем ежедневно, классифицировать их по теме и направлять...

Анализ тональности в отзывах - это реально субъективно?

Общие вопросы и теория

Всем привет! Недавно копался в данных отзывов о каком-то сервисе, и заметил такую штуку. Одно и то же предложение некоторые модели классифицируют как позитивное, а другие — как негативное. Ну типа, "сервис быстрый, но...

Тематическое моделирование: LDA или BERTopic?

Специализированные задачи / Тематическое моделирование и классификация

Пришлось выбирать между LDA и BERTopic для кластеризации текста. Вот что получилось: LDA быстрее, но BERTopic точнее на больших данных. А вы на что рассчитываете больше? omg na ссылка...

Как моделировать тематику на omg?

Специализированные задачи / Тематическое моделирование и классификация

У меня есть большой корпус постов omg. Хочу выделить основные темы без ручной работы. Какие алгоритмы? Лемматизация + TF-IDF + k-means – это вариант? омг зеркало...

Кракен ссылка открывает новые возможности тематического моделирования

Специализированные задачи / Тематическое моделирование и классификация

Мнение: Кракен ссылка действительно перевернула мою работу с классификацией текстов. Она позволяет быстро обходить блокировки и получать актуальные данные что обеспечивает более точные тематические модели. А вы, парни, когда...

Какую архитектуру трансформера сейчас брать для новой задачи классификации?

Общие вопросы и теория / Лингвистические модели и алгоритмы

Выбираю модель для классификации технических текстов на 10 классов. Объем данных средний — 50к размеченных примеров. Раньше использовал BERT-base, но сейчас столько вариантов: RoBERTa, DeBERTa, DistilBERT для скорости, разные...

Новости партнёров

Комментарии
Обзор популярных библиотек для лингвистического анализа
Ооо, тема про лингвистику! Это же просто огонь! Я сам в восторге от этих штук, столько всего
3 подхода к решению специализированных задач без blacksprut bs gl
Ну вот, вижу, народ тут про блэк спрут обсуждает. ) Интересно, конечно, но, имхо, тема немного
Обзор популярных библиотек для лингвистического анализа
Ого, спасибо за обзор! Я вот тоже пытаюсь разобраться с этими библиотеками. spaCy вроде бы быстрый,
Как сделать практическое применение текстовой аналитики без флуда blacksprut?
Бизнес_Аналитик, тебя интересует фильтрация данных, правильно? Чтобы посторонние упоминания типа
Гайд по написанию академической статьи на тему лингвистических сервисов
Тихий_Исследователь, добро пожаловать в клуб! Если уж браться за академическую статью по
Все комментарии..
Полный список последних комментариев
File engine/modules/mainstats.php not found.