Интеграция с Google NLP API сломалась после их тихого обновления!

Инструменты и технологии / Интеграция и API

Все работало как часы полгода. Сегодня утром скрипты начали падать с ошибками аутентификации. В логах Google Cloud — ничего внятного. Ключи сервисного аккаунта те же, проект активен, квоты не исчерпаны. Проверил — документацию по...

Какую архитектуру трансформера сейчас брать для новой задачи классификации?

Общие вопросы и теория / Лингвистические модели и алгоритмы

Выбираю модель для классификации технических текстов на 10 классов. Объем данных средний — 50к размеченных примеров. Раньше использовал BERT-base, но сейчас столько вариантов: RoBERTa, DeBERTa, DistilBERT для скорости, разные...

Практический гайд по препроцессингу мультиязычных текстов

Специализированные задачи / Работа с мультиязычными текстами

Работа с текстами на нескольких языках — это не просто конкатенация пайплайнов. Вот проверенный на практике подход, который убережет от головной боли. Первое и главное: определи язык каждого документа. Не доверяй метаданным....

SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

Инструменты и технологии / Популярные библиотеки и фреймворки

После долгой работы на версии 3.x решил переехать на свежую SpaCy 4.0 для нового проекта по извлечению сущностей из юридических текстов. Впечатления неоднозначные Что порадовало: Скорость. Новый трансформерный пайплайн, особенно...

Когда твой мониторинг новостей ловит инфоповод раньше всех — это особое чувство

Практическое применение / Анализ социальных медиа и новостей

Я разрабатывал систему мониторинга отраслевых новостей для одной fintech-компании. Не просто сбор, а раннее обнаружение трендов. В основе лежала кластеризация новостных заголовков и кратких описаний в реальном времени, плюс...

Мы слишком увлеклись сложными моделями и забыли про базовый лингвистический анализ

Общие вопросы и теория

Все сейчас гонятся за миллиардными трансформерами, но часто простая частотность слов или анализ синтаксических конструкций даёт больше инсайтов для бизнеса. Серьезно. Видел кейс, где компания потратила месяцы на fine-tuning BERT...

Автоматизация сводок по отчётам: история про то, как чат-бот стал лучшим аналитиком — классификация текстов

Практическое применение / Бизнес-аналитика и обработка документов

Меня наняли в небольшую консалтинговую фирму, чтобы «автоматизировать рутину». Главная боль — еженедельные отчёты от десятков менеджеров. Каждый писал в свободной форме: кто в ворде, кто в почте, кто в телеге. Руководство тратило...

Токенизатор сходит с ума на смешанном англо-русском контенте! Помогите!

Общение

Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер» Пробовал стандартный токенизатор из nltk для английского — он разрывает...

Как мы внедрили анализ тональности в поддержку и что из этого вышло

Практическое применение

Это началось с простого наблюдения: менеджеры по поддержке тонули в море обращений, а самые негативные часто терялись в общем потоке. Ну и, как водится, проблема всплыла, когда один разгневанный клиент написал гневный пост в...

Тот раз, когда тематическая модель спасла меня от трёх месяцев рутины

Практическое применение / Кейсы и реальные проекты

Было это года два назад. Работал я тогда в одном издательском доме. Начальник пришел с «простым» заданием: у нас архив из 50 000 статей за 10 лет, неструктурированный. Нужно понять, какие основные темы мы поднимали, как они...

Новости партнёров

Комментарии
Обзор популярных библиотек для лингвистического анализа
Ооо, тема про лингвистику! Это же просто огонь! Я сам в восторге от этих штук, столько всего
3 подхода к решению специализированных задач без blacksprut bs gl
Ну вот, вижу, народ тут про блэк спрут обсуждает. ) Интересно, конечно, но, имхо, тема немного
Обзор популярных библиотек для лингвистического анализа
Ого, спасибо за обзор! Я вот тоже пытаюсь разобраться с этими библиотеками. spaCy вроде бы быстрый,
Как сделать практическое применение текстовой аналитики без флуда blacksprut?
Бизнес_Аналитик, тебя интересует фильтрация данных, правильно? Чтобы посторонние упоминания типа
Гайд по написанию академической статьи на тему лингвистических сервисов
Тихий_Исследователь, добро пожаловать в клуб! Если уж браться за академическую статью по
Все комментарии..
Полный список последних комментариев
File engine/modules/mainstats.php not found.