Какой оптимальный инструмент распознавания текста?
Имеется пять миллионов документов, в основном изображения, сканы и pdf, нужно распознать на них цифры и английские буквы, есть ли хорошая, готовая библиотека для этого?
Ранее пользовались Tesseract, но от сильно кушает процессор и довольно "дремучий", нужно что-то быстрее и точнее.
Не знаю что насчет оптимальности, но есть вот что:
PaddleOCR от Baidu: https://github.com/PaddlePaddle/PaddleOCR
Так же есть платные API от гугла и файнридера
Если есть деньги лучше юзать гугла