Как средствами MYSQL/PHP определить «кракозябры»?

Question

Илья Хребет @hrebet

Как средствами MYSQL/PHP определить «кракозябры»?

Здравствуйте.

Есть MySQL и приложение на UTF-8.

Есть таблица (предположим user: id, name), которая содержит в себе большое количество записей, значения которых получено из сторонних источников.

Бывает что такие источники меняют свою кодировку, предположим на CP1251, я же по прежнему продолжаю записывать такие значения (без предварительной перекодировки), например:

РњС‹ Р’С‹Р±РёСЂР°РµРј
РњР°Р»Рѕ РњРЅРµ

Собственно, вопрос. Как более правильно определить все такие записи для их удаления? Отмечу, не лечения, а именно удаления.

В своём решении я составляю список запрещенных подстрок, например: Р°, после чего получаю все записи из таблицы и средствами PHP проверяю нахождение такой подстроки в поле name. Такой подход работает неплохо, но с определенной погрешностью, а если увеличить базу запрещенных символов - с ней увеличивается и возможность задеть цельные данные.

Буду рад услышать возможные пути решения.

Большое Человеческое Спасибо! ;-)

Вопрос задан более трёх лет назад
603 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Skillbox

Профессия PHP-разработчик с нуля до PRO

7 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+3 ещё

Средний
Как организовать автоматическую выдачу цифровых товаров после оплаты на чистом PHP?
- 1 подписчик
- 20 апр.
- 151 просмотр
3

ответа
Браузеры

+1 ещё

Простой
Как вернуть кодировку страниц?
- 1 подписчик
- 09 апр.
- 133 просмотра
2

ответа
PHP

Простой
Не работает яндекс ссылка прямая?
- 1 подписчик
- 07 апр.
- 192 просмотра
1

ответ
PHP

Простой
Почему слетает сайт при загрузке обработчика?
- 1 подписчик
- 02 апр.
- 216 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Авторизация вконтакте как настроить?
- 2 подписчика
- 26 мар.
- 346 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 313 просмотров
2

ответа
PHP

Простой
СТРОКА — где искать ее истоки на сайте?
- 1 подписчик
- 11 мар.
- 373 просмотра
2

ответа
PHP

Простой
Есть ли такая функция сравнения?
- 2 подписчика
- 09 мар.
- 321 просмотр
1

ответ
JavaScript

+2 ещё

Простой
Как быть если ломается сайт, в зависимости от браузера?
- 1 подписчик
- 05 мар.
- 524 просмотра
1

ответ
PHP

Простой
Как отправить файл в Телеграм через OpenServer 6.5.0?
- 1 подписчик
- 02 мар.
- 247 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 15 000 до 250 000 ₽

Программист PHP

Базис-Центр • Коломна

от 70 000 до 250 000 ₽

Fullstack PHP Laravel/VueJS разработчик

Emsoft

До 150 000 ₽

Answer 1 · 2016-07-27 16:32:25

В итоге я как и планировал собрал список наиболее популярных подстрок, у меня это получилось:

$chars = [
	'Ђ',
	'Рњ',
	'Р°',
	'Рµ',
	'Рџ',
	'Р№',
	'СЏ',
	'Р‘',
	'Рђ',
	'Р»',
	'Рї',
	'С€',
	'¶',
	'Р”',
	'‡',
	'Р›',
	'Р•',
];

Прошелся циклом по всем записям на определение вхождений таких подстрок с помощью регулярных выражений или substr_count и при выявлении - избавлялся от таких позиций.

Отмечу, что меня не интересовало лечение таких строк, в другом случае можно было-бы обойтись обычным iconv.

;-)

Answer 2 · 2016-07-25 02:35:43

nozzy @nozzy

Symfony, Laravel, SQL, Python, Telegram

В regexp-условие можно добавить символы

select
text_column 
from
your_table
where not text_column regexp '[A-Za-z0-9]';

Ответ написан более трёх лет назад

1 комментарий

Как средствами MYSQL/PHP определить «кракозябры»?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт