Алгоритм определения прямоугольной области, содержащей слово, на изображении?

Question

KvanTTT @KvanTTT

Алгоритм определения прямоугольной области, содержащей слово, на изображении?

Подскажите пожалуйста универсальный, стабильный, не очень сложный алгоритм для поиска ближайшей прямоугольной области, содержащей слово, на изображении от заданной точки.

Входными данными является точка X, Y (на рисунке отмечена красным крестиком).
Выходными данными является прямоугольник Left, Top, Width, Height (на рисунке отмечен голубым цветом).

Универсальность подразумевает под собой работу с любыми размерами, цветами шрифтов и как можно большим количеством типов шрифтов.

На данный момент реализован алгоритм, идея которого заключается в подсчете светлых пикселей в столбцах и строках несколько раз. Но он нуждается в доработке и подборке коэффициентов.

У кого-нибудь есть другие идеи? Как сегментация слов и картинок реализована в OCR движках?

Вопрос задан более трёх лет назад
3808 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 428 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 513 просмотров
2

ответа
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 394 просмотра
1

ответ
Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг. 2025
- 209 просмотров
2

ответа
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- более года назад
- 525 просмотров
2

ответа
JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- более года назад
- 2065 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- более года назад
- 470 просмотров
4

ответа
HTML

+2 ещё

Простой
Как выполнить ëфикацию без сторонних библиотек?
- 2 подписчика
- более года назад
- 711 просмотров
2

ответа
Автоматизация обработки текста

Простой
Какой код вбить, чтобы он склонял определëнное слово да ещë и повсеместно на странице/сайте?
- 2 подписчика
- более года назад
- 92 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Хорошо ли распознают современные версии FineReader по сравнению со старыми?
- 1 подписчик
- более года назад
- 244 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2012-01-21 21:26:53

Тут надо решить много задач:
Определить где текст (блоки текста), правильно повернуть его, определить, был ли клик внутри этой области.
Потом слова можно выделить, используя Connected-component labeling ( en.wikipedia.org/wiki/Connected_Component_Labeling ) наверное.
Вообще, есть же бесплатные OCR библиотеки, они это точно все должны уметь делать.

Answer 2 · 2012-01-21 20:29:12

Примерно так:
— Сначала обесцвечиваем и уменьшаем количество цветов до 2 (чёрный и белый);
— Идём в одном направлении (верх, вниз, влево или вправо) и ищем 1-2 полностью белых строки. Записываем координаты внутренней;
— Повторяем для всех направлений;
— Получаем область ограниченную внутренними координатами;
— Повторяем для неё;
— Дальше уже идёт разбивка на буквы.

Алгоритм определения прямоугольной области, содержащей слово, на изображении?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт