Задать вопрос
@0xC0CAC01A

Чем распознать текст на картинках в PDF?

Есть PDF, в котором вперемешку и текст, и куча картинок с текстом. Чем его распознать в линуксе или онлайн, так чтобы все слова, включая те, что на картинках попали в результат в виде .txt файла?
  • Вопрос задан
  • 461 просмотр
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 2
Alex_Geer
@Alex_Geer
System Engineer
Данная технология называется OCR.
Можно использовать OCR движок для распознавания например tesseract-ocr
Со списком команд и как экспортировать текст из PDF в TXT ознакомься уже сам )

Пишешь скрипт который будет отправлять страницы с изображениями в OCR, далее так же скриптами на выходе склеиваешь обработанный текст с уже имеющимся.
Ответ написан
@Robyn_rock
Что-то умею
Кидаешь в чат бота, получаешь результат в файл.
Хз как будет работать на конкретных файлах, но в целом работает.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы