@alexh7854

Как в php добавлять в базу и обрабатывать тексты разных кодировок?

Здравствуйте.

Есть такая задача - на сайт можно загружать текстовые файлы. Файлы разбиваются на страницы по 2000 символов и потом текст можно просматривать по страницам. Также текст обрабатывается регулярками.
Сайт мультиязычный, загружать можно тексты на любом языке.

Не совсем понимаю что делать с кодировками? По умолчанию везде вроде используется unicode / utf-8.

Но что делать если кодировка файла не utf-8?
Какую кодировку выбрать для базы данных? Как избежать проблем с регулярками, они вроде не работают если кодировка не unicode.

Пытался загрузить текст в другой кодировке, возникает ошибка из-за кодировки Incorrect string value: '\xF0\x90\x8D\x83\xF0\ .

Поменял кодировку базы на utf8mb4, затем на utf-32, но ошибка все равно осталась.
  • Вопрос задан
  • 115 просмотров
Пригласить эксперта
Ответы на вопрос 2
@PavelFokeev
pavl1k.ru
Но что делать если кодировка файла не utf-8?

Конвертировать в UTF-8 и работать дальше.
Ответ написан
ematveev
@ematveev
PHP разработчик / руководитель / писатель
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы