Как извлечь текст из pdf файла отделавшись малой кровью?
нужно извлечь из словаря отдельно слова и отдельно их значения, в словаре больше 10к слов, вручную делать будет сложновато и нудно, есть ли какие нибудь варианты как сделать это быстрее, эффективнее?
я в свое время перегнал pdf в картинки а потом через распознаватель текста. но подозреваю со словарем такое не получится.
если внутренняя структура у pdf-ки регулярная, то можно написать декодер - в конце концов это текстовый формат и можно написать декодер вот пример https://habrahabr.ru/post/69568/