Гайд по быстрой классификации текстов без боли — лингвистические сервисы

Инструменты и технологии

Народ, честно? Сколько можно мучиться с разметкой? Я вот устал. Этот ваш текстовый анализ — дело тонкое, особенно когда надо кучу однотипных документов раскидать по папкам. Думаете, какие-то хитрые NLP-модели спасут? Ну, это как...

А я-то думал, мой «умный» бот — гений... — классификация текстов

Инструменты и технологии / Сравнение платформ и сервисов

Ну, здрасьте. Сидел тут, значит, пыхтел над своим чат-ботом для техподдержки. Думал, щас как запущу, он там всем клиентам все разрулит, сам, без меня. Имхо, это будет прорыв года! Ага, конечно. Главное — верить. Взял я, короче,...

NLP-сервисы: почему готовые решения – это провал

Инструменты и технологии / Разработка собственных инструментов

Ну вот, очередная волна обсуждений каких-то новых лингвистических сервисов. По моим наблюдениям, большинство из них – это просто обертка над теми же самыми моделями, что доступны всем желающим. Зачем платить за то, что можно...

Гайд: Как собрать свой мини-NLP комбайн на коленке 😉

Инструменты и технологии / Сравнение платформ и сервисов

Так, народ, все устали от этих «волшебных» лингвистических сервисов, которые жрут бюджет как не в себя, а результат? Ну-ну. Давайте попробуем собрать что-то попроще, но рабочее. Понадобится немного усидчивости и желание...

Кто-нибудь пробовал интеграцию с новым API от WordSense?

Инструменты и технологии / Интеграция и API

Пытаюсь встроить их сервис для NLP в наш проект. В документации заявлена поддержка классификации текстов до 1000 категорий. Но что-то по результатам первых тестов не сходится. Получается максимум 50-70. Есть какая-то специфика по...

NLP-ад: никак не могу подружить BERT и русские тексты!

Инструменты и технологии / Разработка собственных инструментов

Коллеги, у меня тут затык, прям руки опускаются. Пытаюсь сделать систему для автоматической классификации текстов, ну типа простенькую, на основе предобученной модели BERT. Все вроде по учебникам — загружаю, токенизирую,...

Гайд: Как выбрать лингвистический сервис и не нарваться на «Кракен»

Инструменты и технологии / Сравнение платформ и сервисов

Ну, народ, привет. Вижу, тут любят поболтать про всякие там NLP-фишки. И про то, как один «Кракен» слетает, а другой — нет. Имхо, эти темы — просто вода. Давайте по делу. Вот вам мой личный опыт. Выбирайте с умом, чтобы потом не...

Кракен слетел, что делать?!?

Инструменты и технологии / Сравнение платформ и сервисов

Блин, парни, это просто жесть. Вчера нормально все было, а сегодня мой верный кракен сайт куда-то пропал. Ну, типа, зайти не могу. Пытался через поисковик кракен зеркало всякие найти — одно фуфло подсовывают, то вирусы, то вообще...

NLP-сервисы — это просто магия? Или скучный подсчет слов?

Инструменты и технологии / Сравнение платформ и сервисов

Ну да ну да, все эти ваши лингвистические сервисы, такие умные, такие полезные. Особенно когда речь заходит о классификации текстов. Прям чувствуешь себя гуру, когда машина сама понимает, что этот пост — про котиков, а вон тот —...

Аналитика текста: пора забыть про семантику?

Инструменты и технологии

Развернул тут новую версию движка для анализа. Если смотреть характеристики, то все заточено под чисто структурные метрики: длина предложений, частота слов, морфологический разбор. Семантику, ну типа смысловые связи, пока оставил...

Гайд по созданию простого классификатора текстов на Python: с нуля до первого прототипа

Инструменты и технологии / Разработка собственных инструментов

Вижу, многие хотят попробовать свои силы в NLP, но пугаются масштаба задачи. Смотри, тут логика такая: не нужно сразу строить сложную нейросеть. Давай по порядку, я покажу, как собрать рабочий прототип для классификации текстов...

Инструмент для аннотации текстов Prodigy — дорого, но оно того стоит?

Инструменты и технологии

Долго сомневался, но для нового проекта по разметке медицинских текстов решил взять Prodigy. Делимся впечатлениями после месяца активного использования. Сначала про ценник — да, это самый дорогой инструмент в подборке. И...

Интеграция с Google NLP API сломалась после их тихого обновления!

Инструменты и технологии / Интеграция и API

Все работало как часы полгода. Сегодня утром скрипты начали падать с ошибками аутентификации. В логах Google Cloud — ничего внятного. Ключи сервисного аккаунта те же, проект активен, квоты не исчерпаны. Проверил — документацию по...

SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

Инструменты и технологии / Популярные библиотеки и фреймворки

После долгой работы на версии 3.x решил переехать на свежую SpaCy 4.0 для нового проекта по извлечению сущностей из юридических текстов. Впечатления неоднозначные Что порадовало: Скорость. Новый трансформерный пайплайн, особенно...

Сравнение двух сервисов для тонального анализа: MonkeyLearn vs Aylien — где больше выгоды? — обработка естественного языка

Инструменты и технологии / Сравнение платформ и сервисов

Недавно для клиентского проекта нужно было выбрать облачный сервис для тонального анализа соцмедиа. Протестировал два популярных варианта, делюсь выводами. Начну с MonkeyLearn. Плюсы очевидны: супер-дружелюбный интерфейс, можно...

Новости партнёров

File engine/modules/mainstats.php not found.