kirill_782
@kirill_782
Днем я Маринетт

Как решить проблему с кодировками у функции preg_match_all?

Я написал регулярку для парсинга всех русских слов (/([А-Яа-я]+)/). Кодировка исходного текста - UTF-8. preg_match_all наотрез отказывался работать с UTF-8 и поэтому пришлось перекодировать текст и регулярку в cp866. Вроде всё работает, но как только в тексте появляются emoji регулярка ничего не находит. Как удалить emoji, или заставить регулярку работать с ними. Текст берется из API вконтакте.
  • Вопрос задан
  • 176 просмотров
Решения вопроса 1
VladimirAndreev
@VladimirAndreev
php web dev
используй регулярку /([А-Я]+)/ui и preg_match_all чудесным образом научится работать с UTF8 (модификатор u) и проигнорирует регистр (модификатор i)

кстати, а почему, например, "кроваво-красный виноград" - это 3 слова, а не два?..
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы