Определение позиций и размеров блоков текста в tessract в консольном режиме

Question

KvanTTT @KvanTTT

Определение позиций и размеров блоков текста в tessract в консольном режиме

Для распознавания текстов я использую tesseract в консольном режиме.
Входными аргументами являются
imagename — путь к изображению;
outputbase — имя файла с распознанными текстом.

Также в качестве задавать разные параметры распознавания с помощью -psm pagesegmode:
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.

Но я так и не смог нагуглить, можно ли определять точные позиции и размеры блоков с текстом, картинками. И если можно, то как это сделать?
Эти настройки нужно задавать в конфигурационном файле configfile?

P.S. Пишу я свою программу в Visual Studio C# и она использует Tesseract.

Вопрос задан более трёх лет назад
3881 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 422 просмотра
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 512 просмотров
2

ответа
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент. 2025
- 219 просмотров
1

ответ
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 393 просмотра
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- более года назад
- 524 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- более года назад
- 2064 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Хорошо ли распознают современные версии FineReader по сравнению со старыми?
- 1 подписчик
- более года назад
- 243 просмотра
1

ответ
Python

+1 ещё

Простой
Как исправить ошибку при выполнении кода с Tesseract-OCR (не видит русский язык)?
- 1 подписчик
- более года назад
- 531 просмотр
1

ответ
Машинное обучение

+2 ещё

Средний
Как добиться распознавания текста и цифр в 99,9%?
- 1 подписчик
- более года назад
- 282 просмотра
3

ответа
Машинное обучение

+1 ещё

Сложный
Как генерировать описания картинок на основе их эмбеддингов (CLIP feature vector)?
- 3 подписчика
- более года назад
- 1917 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2012-02-01 17:03:13

Сам же себе и отвечу: в tesseract 3.0 есть опция «hocr», которая позволяет возвращать не просто распознанный текст, а страницу в html формате, содержащую распознанные слова и их координаты.

Определение позиций и размеров блоков текста в tessract в консольном режиме

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт