Нужен сервис с API, который быстро распознаёт тексты с картинки (картинки типа отсканированных документов, то есть фотографии листов с текстом). Но тексты специфичные, не просто набор слов, а содержащий разные специальные математические и не только символы.
На данный момент использую tesseract.js, но она очень медленная (возможно это связано с тем, что OCR происходит на фронте).
Посоветовать хороший OCR сервис, не очень дорогой (до 100$ в месяц) и желательно имеющий бесплатные пробные тесты.
shurshur, согласен. Как минимум, распознавалку нужно обучать на текстах именно такого типа. На матан отдельно, на матрицы отдельно, на химические формулы отдельно и т.д.
Есть достаточно неплохой яндекс: https://cloud.yandex.com/docs/vision/concepts/ocr/
Но есть нюансы:
1. тарификация pay as you go, так что может быть и больше и меньше 100$
2. непонятно, что с математическими символами - возможно, полностью автоматически такое не получится обработать.
Если нужно очень много обрабатывать сложных документов, то есть смысл в разработке своего решения, которое будет хорошо работать именно с вашими документами.