Эх, помню, как первые нейронки тексты мучили...
Вот листаю я тут ваши современные статьи про NLP, классификацию текстов и всякие лингвистические сервисы, и прямо накатывает ностальгия. Помню еще, когда только-только начинали эти штуки внедрять в массы, и это была песня. Совсем не то, что сейчас, когда любая молодая компания может выдать продукт, который за секунды тебе весь текстовый анализ сделает.
У меня как-то был случай, еще лет... дай бог памяти, лет семь назад, мы с ребятами пробовали построить систему для автоматической модерации комментариев на одном крупном портале. Это был ад. Тогдашние модели, даже те, что считались передовыми, постоянно чудили. Они могли совершенно безобидный комментарий забанить, а вот откровенный мат пропускали, как ни в чём не бывало. Помню, как сидели мы ночами, перебирали параметры, учили модели на каких-то чудовищных датасетах, которые сами же заранее собирали и размечали.
Разметка – это вообще отдельная история. Десятки тысяч строк текста, и ты сам, или твои коллеги, сидишь и тупо ставишь галочки: спам, оскорбление, реклама... Глаза на лоб лезли. А потом, когда вроде бы что-то получалось, приходил заказчик и говорил: 'А вот тут, где написано 'дурак', это ведь не оскорбление, а дружеское подтрунивание!'. И ты снова возвращался к началу.
Были моменты, когда хотелось всё бросить и уйти в разведение уток. Но вот что интересно: когда что-то получалось, когда модель вдруг начинала работать как надо, пусть и на очень узкой задаче, эйфория была неимоверная. Это было наше, родное, созданное с нуля. Не то, что сейчас, когда кучу готовых библиотек взял, накидал, и оно 'работает'. Конечно, прогресс – это здорово, и я рад, что обработка естественного языка шагнула так далеко. Но иногда скучаю по тем временам, когда каждый успех был выстрадан.

Комментарии 3