Необходима библиотека для распознавание текста с документа на PHP?

Через форму загружаются изображения и далее необходимо сканировать текст с изображений. Как реализовать на PHP (нужны готовые бесплатные библиотеки и анализаторы).
  • Вопрос задан
  • 632 просмотра
Решения вопроса 1
@rPman
открытый бесплатный готовый к использованию - tesseract
недостаток, если документ не распознается, то нужно будет тюнить его шрифты

на английский язык и некоторые другие языки есть современные языковые OCR модели, гуглить на huggingface.co ocr multilang, на русский я не нашел. Но куча готового софта, подбираешь датасет, обучаешь,...
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
DobroFenix
@DobroFenix
Тессеракт всё криво распознаёт. Распознать содержимое табличек или что-то рукописное даже не пытайтесь - будет куча мусора.
Используйте windows сервер и finereader. Всё будет работать из php.

$cmd = "\"C:\\Program Files (x86)\\ABBYY FineReader 15\\FineCmd.exe\" \"$file_full_patch\" /lang Mixed /out \"$file_save_patch\"";
proc_open($cmd, [], $pipe);
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы