Какую архитектуру трансформера сейчас брать для новой задачи классификации?

Общие вопросы и теория / Лингвистические модели и алгоритмы

Выбираю модель для классификации технических текстов на 10 классов. Объем данных средний — 50к размеченных примеров. Раньше использовал BERT-base, но сейчас столько вариантов: RoBERTa, DeBERTa, DistilBERT для скорости, разные...

Практический гайд по препроцессингу мультиязычных текстов

Специализированные задачи / Работа с мультиязычными текстами

Работа с текстами на нескольких языках — это не просто конкатенация пайплайнов. Вот проверенный на практике подход, который убережет от головной боли. Первое и главное: определи язык каждого документа. Не доверяй метаданным....

SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

Инструменты и технологии / Популярные библиотеки и фреймворки

После долгой работы на версии 3.x решил переехать на свежую SpaCy 4.0 для нового проекта по извлечению сущностей из юридических текстов. Впечатления неоднозначные Что порадовало: Скорость. Новый трансформерный пайплайн, особенно...

Когда твой мониторинг новостей ловит инфоповод раньше всех — это особое чувство

Практическое применение / Анализ социальных медиа и новостей

Я разрабатывал систему мониторинга отраслевых новостей для одной fintech-компании. Не просто сбор, а раннее обнаружение трендов. В основе лежала кластеризация новостных заголовков и кратких описаний в реальном времени, плюс...

Мы слишком увлеклись сложными моделями и забыли про базовый лингвистический анализ

Общие вопросы и теория

Все сейчас гонятся за миллиардными трансформерами, но часто простая частотность слов или анализ синтаксических конструкций даёт больше инсайтов для бизнеса. Серьезно. Видел кейс, где компания потратила месяцы на fine-tuning BERT...

Автоматизация сводок по отчётам: история про то, как чат-бот стал лучшим аналитиком — классификация текстов

Практическое применение / Бизнес-аналитика и обработка документов

Меня наняли в небольшую консалтинговую фирму, чтобы «автоматизировать рутину». Главная боль — еженедельные отчёты от десятков менеджеров. Каждый писал в свободной форме: кто в ворде, кто в почте, кто в телеге. Руководство тратило...

Токенизатор сходит с ума на смешанном англо-русском контенте! Помогите!

Общение

Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер» Пробовал стандартный токенизатор из nltk для английского — он разрывает...

Как мы внедрили анализ тональности в поддержку и что из этого вышло

Практическое применение

Это началось с простого наблюдения: менеджеры по поддержке тонули в море обращений, а самые негативные часто терялись в общем потоке. Ну и, как водится, проблема всплыла, когда один разгневанный клиент написал гневный пост в...

Тот раз, когда тематическая модель спасла меня от трёх месяцев рутины

Практическое применение / Кейсы и реальные проекты

Было это года два назад. Работал я тогда в одном издательском доме. Начальник пришел с «простым» заданием: у нас архив из 50 000 статей за 10 лет, неструктурированный. Нужно понять, какие основные темы мы поднимали, как они...

Сравнение двух сервисов для тонального анализа: MonkeyLearn vs Aylien — где больше выгоды? — обработка естественного языка

Инструменты и технологии / Сравнение платформ и сервисов

Недавно для клиентского проекта нужно было выбрать облачный сервис для тонального анализа соцмедиа. Протестировал два популярных варианта, делюсь выводами. Начну с MonkeyLearn. Плюсы очевидны: супер-дружелюбный интерфейс, можно...

Новости партнёров

Комментарии
Обзор популярных библиотек для лингвистического анализа
Ооо, тема про лингвистику! Это же просто огонь! Я сам в восторге от этих штук, столько всего
3 подхода к решению специализированных задач без blacksprut bs gl
Ну вот, вижу, народ тут про блэк спрут обсуждает. ) Интересно, конечно, но, имхо, тема немного
Обзор популярных библиотек для лингвистического анализа
Ого, спасибо за обзор! Я вот тоже пытаюсь разобраться с этими библиотеками. spaCy вроде бы быстрый,
Как сделать практическое применение текстовой аналитики без флуда blacksprut?
Бизнес_Аналитик, тебя интересует фильтрация данных, правильно? Чтобы посторонние упоминания типа
Гайд по написанию академической статьи на тему лингвистических сервисов
Тихий_Исследователь, добро пожаловать в клуб! Если уж браться за академическую статью по
Все комментарии..
Полный список последних комментариев
File engine/modules/mainstats.php not found.