Можно ли как то бороться с одинаковыми по написанию символами латиницы и кириллицы?

Question

LionG @LionG

PHP

Можно ли как то бороться с одинаковыми по написанию символами латиницы и кириллицы?

Есть массив рейсов по определенному маршруту в формате json. В каждом рейсе указан самолет который используется в данном рейсе. Простая задачка спарсить уникальные самолеты на данном маршруте. Беда в том что составлял эти данные диверсант и после парсинга получаются дубли самолетов...

Airbus A320
Airbus А320

Визуально одинаковы но стоит посмотреть код символов и сразу становится ясно что в 1м случае А написана на латинице и имеет код A, а во 2м случае А написана на кириллице и имеет код уже А. Возможно ли такое как то пофиксить автоматически ?

Вопрос задан более трёх лет назад
228 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

LionG @LionG Автор вопроса

Просто заменить А на A не прокатит. Такой метод создаст другие дубли тк есть самолеты название которых полностью на русском.

Написано более трёх лет назад
LionG @LionG Автор вопроса

Пока написал костыль - он определяет русское это слово или нет по превосходящему кол символов, и если русское то заменяет всю латиницу на кириллицу (по заранее созданной "азбуке"), иначе наоборот.

Написано более трёх лет назад
Евгений Самсонов @bitniks

LionG, А если для сравнения всегда заменять все возможные совпадающие символы на латиницу?

Написано более трёх лет назад
LionG @LionG Автор вопроса

Евгений Самсонов, Можно и так, "Airbus A320" это поправит но испортит названия русских самолетов добавив в них латинские символы... Работать конечно будет но хотелось бы сделать все идеально, что бы в будущем не возникало проблем.

Написано более трёх лет назад
Moskus @Moskus

LionG, да, это верное решение - сортировка по статистике и условная замена. Однако, я бы, на вашем месте, начал бы параллельно собирать базу верных вариантов.

Написано более трёх лет назад
dollar @dollar

Мда, я думал вам нужно просто в тексте увидеть визуально) Не правильно понял вопрос.

Написано более трёх лет назад
Евгений Самсонов @bitniks

LionG, использовать это только для сравнения

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 4 часа назад
- 44 просмотра
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 272 просмотра
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 280 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 240 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 225 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 175 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 154 просмотра
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 321 просмотр
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 292 просмотра
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 446 просмотров
4

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Просто заменить А на A не прокатит. Такой метод создаст другие дубли тк есть самолеты название которых полностью на русском.

Answer 1 · 2019-05-10 22:04:01

Нужно набрать в гугле "поиск кириллицы".
Ваш Кэп.

UPD

Мда, я думал вам нужно просто в тексте увидеть визуально) Не правильно понял вопрос.

База - это уже слишком, имхо. Ну т.е. если она не меняется, то ладно, а если каждый раз пополняется, то сегодняшняя и вчерашняя функции могут давать разные результаты, и нужно будет заново перепарсивать старые данные. Разве что нужно исправлять опечатки, но это уже более крутая задача, чем в вопросе.

Думаю, нужен хитрый алгоритм. Превосходящее число символов - верное направление. Но также, имхо, нужно учитывать процент и тип символов и порядок слов.

Тип символов. Каждому символу ставим в соответствие число, которое означает русскость от 0 до 1. Например, Б = 1, i = 0, T = 0.5, то есть три варианта. Хотя я бы сделал исключение для пары символов Р = 0.4 и Х = 0.3. Вряд ли самолёт назовут Х320 (буква ха, хз как это звучать будет). Но это может вызвать казусы, так что решать вам. Хотя можно два массива придумать для разных случаев, но это уже сложно для понимания.

1) Считаем средний вес символа в слове. Тут всё очевидно. Но если 0.5, то не спешим округлять, а переходим к п.2

2) Когда вес 0.5, смотрим на предыдущее слово, если вы уверены, что это часть названия. Например, оно с большой буквы (если вы парсите цельный текст). Если у предыдущего слова вес тоже был 0.5, то тогда уже округляете текущее слово в определенную сторону.

3) Соответственно, если три и более слова в названии, то тоже их учитываете по цепочке.

4) Если заранее можно выделить название и быть уверенным, что все слова - его части, то можно посчитать среднюю температуру по больнице. И на её основе делать выводы о каждом слове, у которого вес 0.5.
То есть название
Аве Maria T100 считаем так: первое слово вес 0.66, второе слово вес 0.3, проблемы нет, а вот третье слово вес 0.5 - проблемка. Считаем среднюю по всему названию, выходит 0.44, то есть вывод, что Т - английская.

Хотя если присмотреться, то здесь вообще хорошо бы заменить Аве на Ave, но, как писал выше, это уже другая задача. Но напишу немного про неё. Я бы на вашем месте просто делал бы русский вариант и соответствующую ему латиницу и заносил бы в базу и считал. В случае, если оба названия после приведение встречаются по 1 разу, то есть где-то привели как Аве Мария, а где-то Ave Maria, то парсер вам сигналит ошибкой, а вы уже смотрите своими глазами на название и заносите его в исключение, чтобы везде было одинаково. Также есть опечатки типа AirBus - аналогично в базу, только преобразования по регистру, и вариантов больше - все возможные комбинации, из которых для ошибки достаточно накопить два разных варианта.

Answer 2 · 2019-05-10 22:54:19

Простая регулярка по диапазону символов, если код символа выше значение(по идее выше 127 идет не латиница), то менять символы по словарю.

Можно ли как то бороться с одинаковыми по написанию символами латиницы и кириллицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт