Данная технология называется OCR.
Можно использовать OCR движок для распознавания например
tesseract-ocr
Со списком команд и как экспортировать текст из PDF в TXT ознакомься уже сам )
Пишешь скрипт который будет отправлять страницы с изображениями в OCR, далее так же скриптами на выходе склеиваешь обработанный текст с уже имеющимся.