В итоге я как и планировал собрал список наиболее популярных подстрок, у меня это получилось:
$chars = [
'Ђ',
'Рњ',
'Р°',
'Рµ',
'Рџ',
'Р№',
'СЏ',
'Р‘',
'Рђ',
'Р»',
'Рї',
'С€',
'¶',
'Р”',
'‡',
'Р›',
'Р•',
];
Прошелся циклом по всем записям на определение вхождений таких подстрок с помощью
регулярных выражений или
substr_count и при выявлении - избавлялся от таких позиций.
Отмечу, что меня не интересовало лечение таких строк, в другом случае можно было-бы обойтись обычным
iconv.
;-)