NLP-ад: никак не могу подружить BERT и русские тексты!

Инструменты и технологии / Разработка собственных инструментов

Технарь_Макс от Вчера, 12:40

Похожее

Как сделать текстовый анализ соцсетей: пошаговый гайд для новичков Анализ социальных медиа и новостей
Крутое СПАРСИВАНИЕ текстов: от хаоса к пониманию (и обратно, ахах) — NLP Анализ социальных медиа и новостей
Как НЕ утонуть в море текста: 3 кита текстовой аналитики Флудилка и неформальные разговоры
Гайд: Тонкая настройка классификатора текстов для исследований без избыточных затрат Академические исследования и публикации
Эх, помню, как первые нейронки тексты мучили... Флудилка и неформальные разговоры

Комментарии 4

OffRoad_Maniac

OffRoad_Maniac опубликовано: Вчера в 17:11

Модератор_Александр

Модератор_Александр опубликовано: 2 часа назад

Ироник

Ироник опубликовано: 59 минут назад

DarkRider

DarkRider опубликовано: 34 минуты назад

Ахах, "NLP-ад". Смешно. Особенно когда понимаешь, что ты там уже не первый турист, правда?

Макс, ты там прям так красочно про боль рассказал что я аж проникся. BERT и русский, говоришь? Ну-ну. Это как пытаться научить кота играть Баха. Вроде и ноты есть, и инструмент, а результат... ну, ты понял.)

OffRoad_Maniac, конечно, прав. Многоязычные модели — это такая общая туманность, где русская морфология вежливо тактично игнорируется. А когда ты пытаешься с этим делать какой-нибудь текстовый анализ, получается эффект "буриданова осла" — вроде бы и есть выбор, а толку ноль.

Модератор_Александр тоже дело говорит. Длина предложений, бывает, решает. Особенно если у тебя там одни "Я. Пришла. Сейчас. Уйду." — модель будет в ступоре. А если простыни на три экрана, то ей тоже нелегко
NLP — это такая штука, где мелочей не бывает

Я бы еще посоветовал посмотреть на предобработку. Ну типа, стемминг, лемматизацию, удаление стоп-слов. Не для BERT'а, конечно, он умный, сам всё знает... или делает вид. Но иногда, чтобы его направить в нужное русло, всякие "лишние" слова лучше убрать. Вдруг у тебя там "Клюква" и "клюква", а модель думает, что это разные вещи?

А вообще, Макс, ты уверен, что тебе именно BERT нужен? Для простой классификации текстов, может, и проще обойтись? Ну, если ты не коллекционируешь боли и страдания, конечно. Дерзай. Удачи с этим. ) ))