NLP-сервисы — это просто магия? Или скучный подсчет слов?

Инструменты и технологии / Сравнение платформ и сервисов

Ну да ну да, все эти ваши лингвистические сервисы, такие умные, такие полезные. Особенно когда речь заходит о классификации текстов. Прям чувствуешь себя гуру, когда машина сама понимает, что этот пост — про котиков, а вон тот —...

Интеграция с Google NLP API сломалась после их тихого обновления!

Инструменты и технологии / Интеграция и API

Все работало как часы полгода. Сегодня утром скрипты начали падать с ошибками аутентификации. В логах Google Cloud — ничего внятного. Ключи сервисного аккаунта те же, проект активен, квоты не исчерпаны. Проверил — документацию по...

SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

Инструменты и технологии / Популярные библиотеки и фреймворки

После долгой работы на версии 3.x решил переехать на свежую SpaCy 4.0 для нового проекта по извлечению сущностей из юридических текстов. Впечатления неоднозначные Что порадовало: Скорость. Новый трансформерный пайплайн, особенно...

Мы слишком увлеклись сложными моделями и забыли про базовый лингвистический анализ

Общие вопросы и теория

Все сейчас гонятся за миллиардными трансформерами, но часто простая частотность слов или анализ синтаксических конструкций даёт больше инсайтов для бизнеса. Серьезно. Видел кейс, где компания потратила месяцы на fine-tuning BERT...

Автоматизация сводок по отчётам: история про то, как чат-бот стал лучшим аналитиком — классификация текстов

Практическое применение / Бизнес-аналитика и обработка документов

Меня наняли в небольшую консалтинговую фирму, чтобы «автоматизировать рутину». Главная боль — еженедельные отчёты от десятков менеджеров. Каждый писал в свободной форме: кто в ворде, кто в почте, кто в телеге. Руководство тратило...

Токенизатор сходит с ума на смешанном англо-русском контенте! Помогите!

Общение

Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер» Пробовал стандартный токенизатор из nltk для английского — он разрывает...

Тот раз, когда тематическая модель спасла меня от трёх месяцев рутины

Практическое применение / Кейсы и реальные проекты

Было это года два назад. Работал я тогда в одном издательском доме. Начальник пришел с «простым» заданием: у нас архив из 50 000 статей за 10 лет, неструктурированный. Нужно понять, какие основные темы мы поднимали, как они...

Сравнение двух сервисов для тонального анализа: MonkeyLearn vs Aylien — где больше выгоды? — обработка естественного языка

Инструменты и технологии / Сравнение платформ и сервисов

Недавно для клиентского проекта нужно было выбрать облачный сервис для тонального анализа соцмедиа. Протестировал два популярных варианта, делюсь выводами. Начну с MonkeyLearn. Плюсы очевидны: супер-дружелюбный интерфейс, можно...

Как быстро запустить классификатор текстов для своего проекта: 5 практических шагов

Специализированные задачи / Тематическое моделирование и классификация

Часто спрашивают, как начать классифицировать тексты, не погружаясь сразу в пучины сложных ML-фреймворков. Короче, делюсь опытом который сэкономил мне недели. Всё на примере сбора отзывов на товары (положительный/отрицательный)....

Новости партнёров

Комментарии
File engine/modules/mainstats.php not found.