Как в php добавлять в базу и обрабатывать тексты разных кодировок?
Здравствуйте.
Есть такая задача - на сайт можно загружать текстовые файлы. Файлы разбиваются на страницы по 2000 символов и потом текст можно просматривать по страницам. Также текст обрабатывается регулярками.
Сайт мультиязычный, загружать можно тексты на любом языке.
Не совсем понимаю что делать с кодировками? По умолчанию везде вроде используется unicode / utf-8.
Но что делать если кодировка файла не utf-8?
Какую кодировку выбрать для базы данных? Как избежать проблем с регулярками, они вроде не работают если кодировка не unicode.
Пытался загрузить текст в другой кодировке, возникает ошибка из-за кодировки Incorrect string value: '\xF0\x90\x8D\x83\xF0\ .
Поменял кодировку базы на utf8mb4, затем на utf-32, но ошибка все равно осталась.