Задать вопрос
kirill_782
@kirill_782
Днем я Маринетт

Как решить проблему с кодировками у функции preg_match_all?

Я написал регулярку для парсинга всех русских слов (/([А-Яа-я]+)/). Кодировка исходного текста - UTF-8. preg_match_all наотрез отказывался работать с UTF-8 и поэтому пришлось перекодировать текст и регулярку в cp866. Вроде всё работает, но как только в тексте появляются emoji регулярка ничего не находит. Как удалить emoji, или заставить регулярку работать с ними. Текст берется из API вконтакте.
  • Вопрос задан
  • 182 просмотра
Подписаться 1 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Skillfactory
    Профессия Fullstack веб-разработчик на JavaScript и PHP
    20 месяцев
    Далее
  • Хекслет
    PHP-разработчик
    10 месяцев
    Далее
  • Нетология
    Веб-разработчик с нуля: профессия с выбором специализации
    14 месяцев
    Далее
Решения вопроса 1
VladimirAndreev
@VladimirAndreev
php web dev
используй регулярку /([А-Я]+)/ui и preg_match_all чудесным образом научится работать с UTF8 (модификатор u) и проигнорирует регистр (модификатор i)

кстати, а почему, например, "кроваво-красный виноград" - это 3 слова, а не два?..
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы