Народ, честно? Сколько можно мучиться с разметкой? Я вот устал. Этот ваш текстовый анализ — дело тонкое, особенно когда надо кучу однотипных документов раскидать по папкам. Думаете, какие-то хитрые NLP-модели спасут? Ну, это как сказать. Иногда проще руками, но очень уж медленно.
Я тут накодил для себя такую штуку, которая реально ускоряет процесс. Может, и вам пригодится. Короче, делюсь опытом:
Главное — итеративность. Не ждите идеала с первого раза. И да, не верьте сказкам про автоматическую классификацию текстов без человеческого контроля. Это все пшик. Где пруфы, что ваши супер-сложные модели работают лучше простых?)
Перед публикацией, советую ознакомится с правилами!