Алгоритмы осветления документов, бинаризация изображения и с чего начинать их изучение?
Не так давно мне с моим товарищем поручили программно-исследовательский проект о способах осветления документов.
Было выделено два основных пути — классические алгоритмы и нейросети, а также подобрана программа, на которой можно экспериментировать во благо исследования — Tesseract-OCR. Собственно, возник вопрос: а с чего начать? Где найти примеры алгоритмов и нейросетей (а также где можно ознакомиться с их особенностями и реализацией)? С чего вообще начать изучение нейросетей и алгоритмов, распознающих изображения?
С этими вопросами я хочу обратиться сюда, а также обязуюсь пополнять этот или отдельный ресурс уже найденными и проверенными ответами на эти вопросы (ссылку прикреплю к вопросу тем или иным способом).
Любой материал, относящийся к теме, приветствуется.
Фактически у вас задача отделения текста от фона. Как вариант, можно воспользоваться простейшей свёрточной нейросетью-автоэнкодером: при достаточно малой длине Z-вектора (бутылочное горлышко) она научится восстанавливать фон, но не буквы. Вычитаете из исходного изображения восстановленный автоэнкодером фон, и вуаля - у вас только текст. Также можете погуглить, какой алгоритм используется в формате DJVU.