Ну, типа, все же мы знаем, что для обучения модели нужны данные. И самый простой способ их добыть — это взять откуда-то из сети. На парсить, например.
Но тут есть подвох, друзья. Большинство данных из интернета — это просто мусор. Спам, реклама, плохо структурированный текст, ошибки, ненормативная лексика... Модель, обученная на таком, будет выдавать такие же результаты: бесполезные и зачастую смешные.
Представьте, вы хотите научить модель отличать научные статьи от художественной литературы. И обучаете ее на случайных кусках текста с форумов, где люди обсуждают пиво и футбол. Ну, как бы, результат закономерен.
Поэтому я считаю, что качество данных — это 90% успеха. Можно иметь самую крутую модель, но если данные плохие, то и результат будет соответствующий. Мы тратим кучу времени на тонкую настройку, когда на самом деле проблему надо решать на этапе сбора и предобработки данных.
А вы как думаете? Стоит ли так заморачиваться с качеством данных, или есть магические способы вытащить смысл из любого текста?
Перед публикацией, советую ознакомится с правилами!