Как реализовать распознавание совпадающих русских и английских символов?

Question

WTFRU7 @WTFRU7

Как реализовать распознавание совпадающих русских и английских символов?

Начал изучать OCR. Вопрос стал следующим образом: какие есть алгоритмы, чтобы отличить русские символы от английских. Не секрет, что в обоих языках есть символы с одинаковым написанием:

habrahabr - английские буквы
атличный ресурс - русские буквы (грамматическая ошибка сделана специально)

Так вот, в данном случае и там, и там есть буква "а", которая может быть распознана, как английская, так и русская, что при последующем написании распознанного текста шрифтом, в котором эти буквы различны, явно отразиться пользователю. Как пример, рукописные шрифты.

Как можно решить такой вопрос? Может, кто знает алгоритмы?

Пока в голову приходит следующее: иметь образы для всех русских букв, а из образов для английских букв удалить все совпадающие с русскими. Далее, когда слово распознано, проверять, есть ли в нем английские буквы, и если есть менять все русские на их аналог английского языка. Например, слово hAbrAhAbr (большие буквы - это те, которые распознаются в данном случае, как русские). Проверяем: видим английские буквы в слове, значит, это английское слово, поэтому меняем символы А на соответствующие английские. Как-то так. Но что будет, если слово является смешанным, допустим, название фирмы: boyarinъ - понятно, что вроде "боярин" должно английскими буквами писаться, а вот твердый знак русскими, то есть мой алгоритм уже не сработает.

Вопрос задан более трёх лет назад
7518 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

3 комментария

Юрий Лобанов @iiil

@samodum при борьбе со спамом проще. Вы читали мой ответ? Как будет распознаваться с?

Написано более трёх лет назад
WTFRU7 @WTFRU7 Автор вопроса

Да, благодарю за ответ - к этому я и склоняюсь для простейших решений. Для добросовестного распознавания, я считаю, что нужно внедрять AI - обучать его словарям языков, основным словосочетаниям, морфологии и тд. Но это уже больно сложно))

Написано более трёх лет назад
Developer @samodum

@iiil можно смотреть не слово в отдельности, а предложение/текст целиком

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 418 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 512 просмотров
2

ответа
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент. 2025
- 219 просмотров
1

ответ
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 393 просмотра
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- более года назад
- 524 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- более года назад
- 2064 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Хорошо ли распознают современные версии FineReader по сравнению со старыми?
- 1 подписчик
- более года назад
- 242 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Как добиться распознавания текста и цифр в 99,9%?
- 1 подписчик
- более года назад
- 282 просмотра
3

ответа
Машинное обучение

+1 ещё

Сложный
Как генерировать описания картинок на основе их эмбеддингов (CLIP feature vector)?
- 3 подписчика
- более года назад
- 1917 просмотров
0

ответов
Распознавание образов

Простой
Как использовать проекты с GitHub?
- 1 подписчик
- более года назад
- 355 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2014-02-22 14:50:10

Кроме того, в Вашем алгоритме как распознать слова:
a а
on оп
no по
c (одиночная цэ в предложении letter c) с
moon тооп
Примеры так себе, но в Вашем варианте будут слова, которые сплошь будут состоять из русских букв, так что придется смотреть контекст, так сказать, хотите Вы или нет )

Answer 2 · 2014-02-22 14:22:07

на случай указанных Вами исключений сделайте выбор языка распознания, чтобы можно было принудительно включить русский или английский.

хотя в примере с боярином сделал бы так: если в слове есть английское символы, то заменить на англ.все русские, которые выглядят как английские.соотв., твердый знак не будет заменен.

Answer 3 · 2014-03-17 09:45:52

Необходима постобработка
Посмотрите статью habrahabr.ru/post/86303

Суть алгоритма: если в слове встретились русские символы (ф,ж,д,ю,...) то слово целиком считается русским и все буквы о, а, е будут здесь русские.
То же самое и для английского языка

Как реализовать распознавание совпадающих русских и английских символов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт