Как работает распознавание текста?

Есть документы (накладные), в которых есть шапка (не нужна для распознавания) и непосредственно данные с товаром, количеством и мерой измерения.
"Товар1 10 ящиков
Товар2 15 штук
Товар3 200 шариков".
Я хочу их распознать, учитывая, что у меня есть список этих товаров (т.е. я могу сравнивать то, что распознал с базой".
Как это вообще работает (я не сталкивался). Мне надо с помощью какого-то инструмента выделить строки в котором есть товар, количество, мера измерения (они всегда идут в одну строку), потом распознать с помощью Tesseract в одну строку и оттуда с помощью базы товаров, которая у меня есть, вытащить название товара, выделить то, что следует за ним как количество и потом после количества выделить меру измерения? А каким инструментом можно выделить строки на изображении? они могут находиться в разных местах документа. Я что-то первый раз вообще подошел к распознаванию текста, попробовал Tesseract, ну что то он распознает, модели для распознавания я могу нагенерить сам с помощью Image от php разными шрифтами, с ошибками и т.д. (ну это в том случае, если надо для этого использовать какую-нибудь нейронку). С чего начать-то?
  • Вопрос задан
  • 273 просмотра
Пригласить эксперта
Ответы на вопрос 2
Griboks
@Griboks
С чего начать то?)

Ну конечно же с официальной документации))

На самом деле возьмите тот самый Tesseract OCR и грамотно его настройте. Затем подкрутите парсинг текста. Но лучше всего делать накладные на компьютере, а затем печатать.
Ответ написан
Комментировать
Читать про document layout analysis. Касательно поддержки в Tesseract: tesseract-ocr.github.io/docs/das_tutorial2016/5Lay...

Библиотека на Питоне: https://gitlab.gnome.org/World/OpenPaperwork/pyocr
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы