Определение позиций и размеров блоков текста в tessract в консольном режиме

Для распознавания текстов я использую tesseract в консольном режиме.
Входными аргументами являются
imagename — путь к изображению;
outputbase — имя файла с распознанными текстом.

Также в качестве задавать разные параметры распознавания с помощью -psm pagesegmode:
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.

Но я так и не смог нагуглить, можно ли определять точные позиции и размеры блоков с текстом, картинками. И если можно, то как это сделать?
Эти настройки нужно задавать в конфигурационном файле configfile?

P.S. Пишу я свою программу в Visual Studio C# и она использует Tesseract.
  • Вопрос задан
  • 3645 просмотров
Решения вопроса 1
KvanTTT
@KvanTTT Автор вопроса
Сам же себе и отвечу: в tesseract 3.0 есть опция «hocr», которая позволяет возвращать не просто распознанный текст, а страницу в html формате, содержащую распознанные слова и их координаты.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы