День добрый. Такая проблема:
Есть XML файл, в котором находится часть текста, распознанная какой-то OCR. Файл в кодировке скорее всего UTF-16LE. Некоторые символы в файле битые и при использовании PHP SimpleXML файл не обрабатывается нормально.
Задача — как-то вырезать эти символы или их игнорировать. С использованием PHP. Пытался бороться с помощью
iconv("UTF-16LE". "UTF-16LE//IGNORE", $loaded_file);
когда файл открывался как строка, а потом уже преобразовывался в XML объект. Не помогает, так же пытался поменять кодировку с помощью iconv, но она выдавала пустую строку.
Образец файла