Какой из шрифтов плохо поддаётся OCR, но при этом сносоно читается человеком?

Question

0xC0CAC01A @0xC0CAC01A

Какой из шрифтов плохо поддаётся OCR, но при этом сносоно читается человеком?

Понятно, что если совсем упереться и сделать нераспознаваемый текст, то получится CAPTCHA. Но при этом важно, чтобы можно было без напряга прочесть страницу такого текста. Т.е. готические шрифты и «рукописные» отпадают. Что остаётся?

Вопрос задан более трёх лет назад
6597 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Графический дизайнер: расширенный курс

19 месяцев

Далее
Академия Эдюсон

Графический дизайнер

4 месяца

Далее
PROFIFUTURE

Графический дизайнер: старт карьеры

6 недель

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

3 комментария

Stdit @Stdit

Кстати, в моей практике распознавания текстов особую трудность представлял текст, набранный на печатной машинке, тем самым классическим угловатым шрифтом с засечками, где «Ш» похожа на «М» или «Ж», буквы расплываются и сливаются, при этом далеко не всегда одинаково выглядят. Такие тексты приходилось чуть ли не руками заново набивать. Но это было давно, сейчас, возможно дела обстоят иначе.

Написано более трёх лет назад
Stdit @Stdit

Что-то типа такого. Может, пригодится :)

Написано более трёх лет назад
AxisPod @AxisPod

Обычно без особых проблем распознается, шумы убираются, производится утоньшение до 1 пикселя и делов-то.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Боты

+1 ещё

Простой
Как создать бота ВК на иностранных мозгах?
- 1 подписчик
- 30 июн.
- 215 просмотров
2

ответа
Обработка изображений

+1 ещё

Простой
Через какой ИИ можно массово редактировать изображения?
- 2 подписчика
- 30 июн.
- 318 просмотров
3

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 383 просмотра
2

ответа
CAPTCHA

Простой
Где увидеть все варианты яндекс смарт капчи?
- 1 подписчик
- 10 июн.
- 104 просмотра
2

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 7 подписчиков
- 01 июн.
- 3683 просмотра
12

ответов
Windows

+2 ещё

Средний
Не могу получить ключ BitLocker из-за неработающей капчи при входе в Microsoft Account, что делать?
- 2 подписчика
- 08 мая
- 837 просмотров
2

ответа
Unity

+2 ещё

Простой
Почему Visual Studio не может найти библиотеку Unity.Sentis, если соответствующий плагин уже установлен в проект и даже смог конвертировать файл?
- 1 подписчик
- 24 апр.
- 118 просмотров
1

ответ
Искусственный интеллект

Простой
OpenRouter грозит не дать доступ россиянам?
- 3 подписчика
- 16 апр.
- 1381 просмотр
1

ответ
Искусственный интеллект

Простой
Как подключить OpenClaw к OpenwebUI?
- 2 подписчика
- 09 апр.
- 277 просмотров
1

ответ
Искусственный интеллект

Простой
Как решить длинные диалоги с ИИ?
- 1 подписчик
- 07 апр.
- 450 просмотров
5

ответов
Показать ещё Загружается…

Answer 1 · 2012-12-05 08:58:51

skive @skive

Может, такой? :)

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2012-12-05 09:01:02

Ну в общем к чему я пришел, когда занимался взломом каптч, то всякие шумы и контраст вырезаются легко (как написано выше), всякие варианты с ниверсией цвета тоже ничего не дает. Более или менее действенные варианты:
— это символы с разрывами, по типу старых трафаретов, где ручкой буковки и циферки рисовали, при этом разрывы должны быть сопоставимы с размерами букв и пробелов (в смысле пара пикселей для шрифта в 72pt ничего вообще не даст, должно быть пропорционально).
— это наложение букв друг на друга, но начинает страдать читабельность.
— это рамка символов, т.е. внутренности символа имеют цвет фона и видна только 1 пиксельная рамка, а если эта рамка еще представляет из себя пунктирную линию, то большинство OCR снесет эти буквы как шум
— это сильно искаженные символы, если волны еще как-то нормально можно востановить, хотя и потребуется индивидуальный подход, то искажения (не помню как в фотошопе называется), взять прямоугольный полигон под символ и растянуть несколько вершин непропорционально, чем-то похоже на псевд 3д преобразование, буква растянута непропорционально OCR уже начинает обламываться.

Но это все для капчи.

Answer 3 · 2012-12-05 05:13:42

Любой шрифт можно распознать, если буквы одинаковые и нет помех (похожих на элементы букв). Теоретически, распознавание тем сложнее, чем сильнее буквы похожи друг на друга (например «О» на «П») или пересекаются. Усложнить задачу можно искажением букв (поворот, нелинейное сжатие, позиционирование и т.д.) и вводом собственно шума (каких-нибудь линий цвета текста, пересекающих буквы). Но тогда, как вы сказали, получится большая капча, которой читатель вряд ли будет рад.

Answer 4 · 2012-12-05 06:25:23

Если символы от слова к слову не меняются, то это должно быть бесполезно. Хотя не знаю, как у OCR программ обстоят дела с выучиванием экзотических шрифтов.

Какой из шрифтов плохо поддаётся OCR, но при этом сносоно читается человеком?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт