Задать вопрос

Какой из шрифтов плохо поддаётся OCR, но при этом сносоно читается человеком?

Понятно, что если совсем упереться и сделать нераспознаваемый текст, то получится CAPTCHA. Но при этом важно, чтобы можно было без напряга прочесть страницу такого текста. Т.е. готические шрифты и «рукописные» отпадают. Что остаётся?
  • Вопрос задан
  • 6300 просмотров
Подписаться 7 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 4
skive
@skive
Может, такой? :)
image
Ответ написан
Комментировать
AxisPod
@AxisPod
Ну в общем к чему я пришел, когда занимался взломом каптч, то всякие шумы и контраст вырезаются легко (как написано выше), всякие варианты с ниверсией цвета тоже ничего не дает. Более или менее действенные варианты:
— это символы с разрывами, по типу старых трафаретов, где ручкой буковки и циферки рисовали, при этом разрывы должны быть сопоставимы с размерами букв и пробелов (в смысле пара пикселей для шрифта в 72pt ничего вообще не даст, должно быть пропорционально).
— это наложение букв друг на друга, но начинает страдать читабельность.
— это рамка символов, т.е. внутренности символа имеют цвет фона и видна только 1 пиксельная рамка, а если эта рамка еще представляет из себя пунктирную линию, то большинство OCR снесет эти буквы как шум
— это сильно искаженные символы, если волны еще как-то нормально можно востановить, хотя и потребуется индивидуальный подход, то искажения (не помню как в фотошопе называется), взять прямоугольный полигон под символ и растянуть несколько вершин непропорционально, чем-то похоже на псевд 3д преобразование, буква растянута непропорционально OCR уже начинает обламываться.

Но это все для капчи.
Ответ написан
Комментировать
Stdit
@Stdit
Любой шрифт можно распознать, если буквы одинаковые и нет помех (похожих на элементы букв). Теоретически, распознавание тем сложнее, чем сильнее буквы похожи друг на друга (например «О» на «П») или пересекаются. Усложнить задачу можно искажением букв (поворот, нелинейное сжатие, позиционирование и т.д.) и вводом собственно шума (каких-нибудь линий цвета текста, пересекающих буквы). Но тогда, как вы сказали, получится большая капча, которой читатель вряд ли будет рад.
Ответ написан
TheRipper
@TheRipper
Если символы от слова к слову не меняются, то это должно быть бесполезно. Хотя не знаю, как у OCR программ обстоят дела с выучиванием экзотических шрифтов.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы