Фактически у вас задача отделения текста от фона. Как вариант, можно воспользоваться простейшей свёрточной нейросетью-автоэнкодером: при достаточно малой длине Z-вектора (бутылочное горлышко) она научится восстанавливать фон, но не буквы. Вычитаете из исходного изображения восстановленный автоэнкодером фон, и вуаля - у вас только текст. Также можете погуглить, какой алгоритм используется в формате
DJVU.