Как из текста со смешанным алфавитом сделать нормальный?

Question

alekssamos @alekssamos

Программист любитель

Как из текста со смешанным алфавитом сделать нормальный?

Какие теги ещё поставить - не знаю.

У одной знакомой на работе тексты написаны смешанным алфавитом (русские и латинские буквы), вместо "У" английская "Y", вместо русской "С" английская "C"и так далее. Может кто сталкивался с такой проблемой и решал её?
Неужели придумывать различные комбинации для словаря, возможно даже с регулярными выражениями? Я пробовал как-то раз, всё равно криво получилось. Есть ли у кого решение?

Дополнительно

Мы не видим глазами. И я, и она. Пользуемся говорящей программой экранного доступа, синтезатором речи, голосом, зачитывает вслух. Ещё может использоваться шрифт брайля, там кириллица и латиница по-разному пишется, в одном слове такие перестановки недопустимы. Так вот. Ей важна точность информации и скорость обработки, даже ошибки на одну букву не желательны. Ну и это отвлекает от работы, сбивает с мысли и просто напросто раздражает. Подробностей я не знаю. Пробовала менять синтезаторы, но ни один её из-за этого не устраивает. Важно именно читать текст в реальном времени, а не копировать его куда-то в редакторы, заменять и прочее, но если это невозможно, только такой выход.

Вопрос задан более трёх лет назад
417 просмотров

5 комментариев

Подписаться 3 Простой 5 комментариев

Александр @ForestAndGarden

Текст для зачитывания получается путём распознавания pdf-файлов?

Написано более трёх лет назад
alekssamos @alekssamos Автор вопроса

pdf, docs, rtf, веб страницы (html) в интернете. Рецепты, кулинария

Написано более трёх лет назад
js-newbie @js-newbie

alekssamos, Есть ощущение, что несколько месяцев назад здесь встречался похожий по смыслу вопрос и там было решение в виде javascript кода, если не ошибаюсь, который просто все латинские буквы в тексте заменял на соответствующие похожие по начертанию русские буквы. Если найду тот вопрос, дам ссылку.

Написано более трёх лет назад
posters @posters

Можно попробовать в магазине расширений для браузера поискать нужное по ключевому слову "replacer".

Написано более трёх лет назад
Александр @ForestAndGarden

Всё-таки нужно баг-репортить и фич-реквестить авторам синтезаторов, чтобы сама программа предобрабатывала текст, устраняя смешение алфавитов.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+2 ещё

Простой
Существуют ли гибридные (наполовину WYSIWYG, наполовину разметка) редакторы Markdown?
- 1 подписчик
- 18 мар.
- 386 просмотров
4

ответа
Текстовые редакторы

Средний
Почему не сохраняются настройки nvim на lua?
- 1 подписчик
- 07 сент. 2025
- 50 просмотров
0

ответов
Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг. 2025
- 208 просмотров
2

ответа
Текстовые редакторы

Простой
Найти и декодировать base64 в тексте, как реализовать?
- 1 подписчик
- более года назад
- 122 просмотра
1

ответ
Windows

+1 ещё

Простой
Перестал открывается текстовый документ как снова его открыть?
- 1 подписчик
- более года назад
- 512 просмотров
3

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- более года назад
- 469 просмотров
4

ответа
Текстовые редакторы

Простой
Существует ли аналог Akelpad (с функцией автоматического открытия некоторых документов при открытии программы, только не notepad++)?
- 1 подписчик
- более года назад
- 218 просмотров
2

ответа
HTML

+2 ещё

Простой
Как выполнить ëфикацию без сторонних библиотек?
- 2 подписчика
- более года назад
- 710 просмотров
2

ответа
Автоматизация обработки текста

Простой
Какой код вбить, чтобы он склонял определëнное слово да ещë и повсеместно на странице/сайте?
- 2 подписчика
- более года назад
- 91 просмотр
2

ответа
Текстовые редакторы

+1 ещё

Средний
Есть ли текстовый редактор с многократным уменьшением текста?
- 1 подписчик
- более года назад
- 118 просмотров
1

ответ
Показать ещё Загружается…

Текст для зачитывания получается путём распознавания pdf-файлов?
pdf, docs, rtf, веб страницы (html) в интернете. Рецепты, кулинария
alekssamos, Есть ощущение, что несколько месяцев назад здесь встречался похожий по смыслу вопрос и там было решение в виде javascript кода, если не ошибаюсь, который просто все латинские буквы в тексте заменял на соответствующие похожие по начертанию русские буквы. Если найду тот вопрос, дам ссылку.
Можно попробовать в магазине расширений для браузера поискать нужное по ключевому слову "replacer".
Всё-таки нужно баг-репортить и фич-реквестить авторам синтезаторов, чтобы сама программа предобрабатывала текст, устраняя смешение алфавитов.

Answer 1 · 2021-02-01 14:14:36

Я решал такую задачу, но давно, более 10 лет назад.
Вот ссылка на мою статью на хабре: https://habr.com/ru/post/86303/
Предполагаем, что в одном слове нельзя смешивать кириллицу и латиницу вместе. Слово должно состоять либо только из кириллицы, либо из латиницы. Если есть смешивание алфавитов, то надо привести слово к нужной кодировке.
Идея простая: программа пытается определить язык, на котором написано слово путём определения вхождения однозначно русских букв, таких как Ё, Ж, З, Ф, Я и т.д., и так же для английского: F, L, Q, S, V, W, Z и т.д.
После этого в слове принудительно заменяются все неоднозначные буквы (А, О, Е, У, Y, Х, X...) на соответствующие буквы того языка, который мы определили.
Можно пойти другим путём. Привести слово сначала к латинской кодировке, затем к латинице. И каждое из слов проверить в словаре. Если такое слово там найдено, то применить это слово. Надо будет доработать тот мой алгоритм, займусь как-нибудь.
Надеюсь, понятно объяснил.

Answer 2 · 2021-02-14 08:44:54

alekssamos @alekssamos Автор вопроса

Программист любитель

Помог код из этой статьи. Сделал дополнение textnormalizer.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2021-02-01 14:02:47

Самый простой вариант - заменить все символы латиницы символами кириллицы. Но у этого метода есть существенный недостаток - он заменит буквы дляже в нормальных словах написанных латиницей.

Вариант посложнее - найти слова, в которых смешаны кирилица и латиница, и применить замену только к ним.

Но со словарем можно еще круче - при замене проверить слово и его словоформы по словарю, и если оно не найдено, то вывести предупреждение или оригинальное написание в скобках, например, или как вам будет удобнее.

Если чтение из браузера, то можно написать расширение или юзерскрипт. Если из редакторов типа microsoft word, то там тоже можно написать VBA скрипты. И наверняка у каких-то скринридеров есть API для плагинов.

Как из текста со смешанным алфавитом сделать нормальный?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт