Здравствуйте.
Есть MySQL и приложение на UTF-8.
Есть таблица
(предположим user: id, name), которая содержит в себе большое количество записей, значения которых получено из сторонних источников.
Бывает что такие источники меняют свою кодировку, предположим на CP1251, я же по прежнему продолжаю записывать такие значения (без предварительной перекодировки), например:
Мы Выбираем
Мало Мне
Собственно, вопрос. Как более правильно определить все такие записи для их удаления? Отмечу, не лечения, а именно удаления.
В своём решении я составляю список запрещенных подстрок, например:
Р°, после чего получаю все записи из таблицы и средствами PHP проверяю нахождение такой подстроки в поле
name. Такой подход работает неплохо, но с определенной погрешностью, а если увеличить базу запрещенных символов - с ней увеличивается и возможность задеть цельные данные.
Буду рад услышать возможные пути решения.
Большое Человеческое Спасибо! ;-)