Эх, помню, как первые нейронки тексты мучили...

Общение / Флудилка и неформальные разговоры

Вот листаю я тут ваши современные статьи про NLP, классификацию текстов и всякие лингвистические сервисы, и прямо накатывает ностальгия. Помню еще, когда только-только начинали эти штуки внедрять в массы, и это была песня. Совсем...

Крутое СПАРСИВАНИЕ текстов: от хаоса к пониманию (и обратно, ахах) — NLP

Практическое применение / Анализ социальных медиа и новостей

Ну что, братва по цифровому разуму? Смотрю, тут все уже научились ловить инфоповоды раньше, чем они успевают родиться, и даже нашли своего Кракэна (или он вас, кто знает?). А вот с разбором всего этого текстового мусора который...

NLP-сервисы — это просто магия? Или скучный подсчет слов?

Инструменты и технологии / Сравнение платформ и сервисов

Ну да ну да, все эти ваши лингвистические сервисы, такие умные, такие полезные. Особенно когда речь заходит о классификации текстов. Прям чувствуешь себя гуру, когда машина сама понимает, что этот пост — про котиков, а вон тот —...

Интеграция с Google NLP API сломалась после их тихого обновления!

Инструменты и технологии / Интеграция и API

Все работало как часы полгода. Сегодня утром скрипты начали падать с ошибками аутентификации. В логах Google Cloud — ничего внятного. Ключи сервисного аккаунта те же, проект активен, квоты не исчерпаны. Проверил — документацию по...

SpaCy 4.0 — мощный, но местами переусложнённый инструмент. Честный разбор

Инструменты и технологии / Популярные библиотеки и фреймворки

После долгой работы на версии 3.x решил переехать на свежую SpaCy 4.0 для нового проекта по извлечению сущностей из юридических текстов. Впечатления неоднозначные Что порадовало: Скорость. Новый трансформерный пайплайн, особенно...

Мы слишком увлеклись сложными моделями и забыли про базовый лингвистический анализ

Общие вопросы и теория

Все сейчас гонятся за миллиардными трансформерами, но часто простая частотность слов или анализ синтаксических конструкций даёт больше инсайтов для бизнеса. Серьезно. Видел кейс, где компания потратила месяцы на fine-tuning BERT...

Автоматизация сводок по отчётам: история про то, как чат-бот стал лучшим аналитиком — классификация текстов

Практическое применение / Бизнес-аналитика и обработка документов

Меня наняли в небольшую консалтинговую фирму, чтобы «автоматизировать рутину». Главная боль — еженедельные отчёты от десятков менеджеров. Каждый писал в свободной форме: кто в ворде, кто в почте, кто в телеге. Руководство тратило...

Токенизатор сходит с ума на смешанном англо-русском контенте! Помогите!

Общение

Ребята, SOS. Делаю парсер для форумов по игровой тематике — там часто пишут на ломаном англо-русском, типа «го в раш, бро» или «Этот читер такой лузер» Пробовал стандартный токенизатор из nltk для английского — он разрывает...

Тот раз, когда тематическая модель спасла меня от трёх месяцев рутины

Практическое применение / Кейсы и реальные проекты

Было это года два назад. Работал я тогда в одном издательском доме. Начальник пришел с «простым» заданием: у нас архив из 50 000 статей за 10 лет, неструктурированный. Нужно понять, какие основные темы мы поднимали, как они...

Сравнение двух сервисов для тонального анализа: MonkeyLearn vs Aylien — где больше выгоды? — обработка естественного языка

Инструменты и технологии / Сравнение платформ и сервисов

Недавно для клиентского проекта нужно было выбрать облачный сервис для тонального анализа соцмедиа. Протестировал два популярных варианта, делюсь выводами. Начну с MonkeyLearn. Плюсы очевидны: супер-дружелюбный интерфейс, можно...

Новости партнёров

Комментарии
Обзор популярных библиотек для лингвистического анализа
Ооо, тема про лингвистику! Это же просто огонь! Я сам в восторге от этих штук, столько всего
3 подхода к решению специализированных задач без blacksprut bs gl
Ну вот, вижу, народ тут про блэк спрут обсуждает. ) Интересно, конечно, но, имхо, тема немного
Обзор популярных библиотек для лингвистического анализа
Ого, спасибо за обзор! Я вот тоже пытаюсь разобраться с этими библиотеками. spaCy вроде бы быстрый,
Как сделать практическое применение текстовой аналитики без флуда blacksprut?
Бизнес_Аналитик, тебя интересует фильтрация данных, правильно? Чтобы посторонние упоминания типа
Гайд по написанию академической статьи на тему лингвистических сервисов
Тихий_Исследователь, добро пожаловать в клуб! Если уж браться за академическую статью по
Все комментарии..
Полный список последних комментариев
File engine/modules/mainstats.php not found.