Задать вопрос
@musclecode

Как извлечь текст из pdf файла отделавшись малой кровью?

нужно извлечь из словаря отдельно слова и отдельно их значения, в словаре больше 10к слов, вручную делать будет сложновато и нудно, есть ли какие нибудь варианты как сделать это быстрее, эффективнее?
  • Вопрос задан
  • 88 просмотров
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    1С-программист
    10 месяцев
    Далее
  • Skillbox
    Профессия 1C-разработчик
    8 месяцев
    Далее
  • Hi-TECH Academy
    KL 004.2.4 Kaspersky SD-WAN
    2 дня
    Далее
Решения вопроса 1
solotony
@solotony
покоряю пик Балмера
все зависит от внутренней структуры pdf.

я в свое время перегнал pdf в картинки а потом через распознаватель текста. но подозреваю со словарем такое не получится.

если внутренняя структура у pdf-ки регулярная, то можно написать декодер - в конце концов это текстовый формат и можно написать декодер вот пример https://habrahabr.ru/post/69568/
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы