Обработка текста в PHP регулярным выражением

Question

Юрий Пихтарев @Exileum

PHP-программист

Обработка текста в PHP регулярным выражением

Доброго времени суток.

Собственно столкнулся с одной проблемой, самостоятельно решить которую не могу. Необходимо обрабатывать средствами PHP вводимый пользователями текст для передачи его поисковому движку Sphinx. Поиск производится по всем имеющимся словам, а не фразе. Для этого перед каждым отдельным словом добавляем оператор +.

Для данной цели использую следующую функцию:

function clean_text_match ($text, $all_words)
{
	global $db, $bb_cfg;

	$text = ' '. mb_strtolower($text, 'UTF-8') .' ';

	if ($all_words)
	{
		$text = preg_replace('#\s(\b\w)#', ' +$1', $text);
	}
	$text_match_sql = $db->escape(trim($text));

	return $text_match_sql;
}

Суть проблемы состоит в некорректной обработке поступающего текста регулярным выражением. Для примера возьмем, что пользователь искал фильм «Секс в большом городе». При поиске фразы «секс в большом городе», в эхе текста, обработанного функцией, видим, что он каким был — таким он и остался:

секс в большом городе

Вводим соответствующую фразу на английском языке и в результате имеем то, что и было задумано:

+sex +and +the +city

Как видите — русский текст через регулярное выражение по непонятной мне причине не проходит. С английским — все отлично. Все текстовые фразы на обработку поступают в уже нужной кодировке (UTF-8) и в принципе каких-либо проблем с самим текстом быть не должно. Следовательно, проблема в самом регулярном выражении.

Немного упрощаем его до вот такой конструкции:

...
	if ($all_words)
	{
		$text = preg_replace('#\s#', ' +$1', $text);
	}
...

Прогоняем русский текст:

+секс +в +большом +городе +

Вроде как все отлично (кроме последнего пробела также получившего +). Однако, если я захочу использовать другие операторы Sphinx, например оператор NOT (! или -), то в результате прогонки текста с таким отрицанием (отрицаем слово город) иметь будем следующее:

+секс +в +большом +-городе +

Что является неверным, т.к. в идеале мы в случае отрицания должны иметь следующий текст:

+секс +в +большом -городе

Поиски похожего регулярного выражения, которое сможет разбивать слова определенными символами, пропуская те, перед которыми уже есть не пробельный символ (@,!,- и т.д.) у меня успехом не увенчались. Поэтому и обращаюсь с просьбой о помощи сюда: есть ли способ осуществить задуманное с иным регулярным выражением?

Во время поисков наткнулся на вот такой комментарий: ru2.php.net/manual/ru/regexp.reference.escape.php#102868 — судя по всему, управляющая последовательность \b просто не дружит с юникодом.

Спасибо.

Вопрос задан более трёх лет назад
4991 просмотр

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

5 комментариев

Юрий Пихтарев @Exileum Автор вопроса

Забыл написать в вопросе, что все возможные модификаторы уже были перепробованы. К сожалению, не помогает. Английский текст проходит через регулярное выражение отлично, русский — нет.

Написано более трёх лет назад
ertaquo @ertaquo

А если попробовать так?
$text = preg_replace('#\s+([^\s]+)#u', ' +$1', $text);
Не совсем корректно, но проблем с русским не будет

Написано более трёх лет назад
ertaquo @ertaquo

Нашел!
$text = preg_replace('#\s+([\b\pL]+)#u', ' +$1', $text);
\pL означает любую букву.
www.php.net/manual/ru/regexp.reference.unicode.php

Написано более трёх лет назад
Юрий Пихтарев @Exileum Автор вопроса
Да, действительно, такой вариант проходит, сходил к вам в профиль. Однако, у него тот же недостаток что и у моего упрощения уже описанного в вопросе — если изначальное регулярное выражение не обрабатывает слова начинающиеся с непробельных символов (!, @, -) — в данном варианте такого нет и мы опять же имеем:

+секс +в +большом +-городе

Как вариант, конечно, заменять потом такие полученные пары символов с операторами, но что-то даже не знаю, думал что есть вариант на одних лишь регулярных выражениях.
Написано более трёх лет назад
Юрий Пихтарев @Exileum Автор вопроса

Большое спасибо, ваш второй вариант подошел идеально!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 138 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 484 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 259 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 204 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2487 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 354 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 194 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 258 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2011-04-07 20:31:09

ertaquo @ertaquo

Попробуйте модификатор u:
$text = preg_replace('#\s#u', ' +$1', $text);
www.php.net/manual/ru/reference.pcre.pattern.modifiers.php

Ответ написан более трёх лет назад

5 комментариев

Answer 2 · 2011-04-07 20:34:52

1. Для использования юникода нужен соответствующий модификатор.
2. Символы, попадающие под действие \w зависят от локали. Проверьте локаль, а лучше — замените \w на [a-zа-яё].

Answer 3 · 2011-04-07 21:03:18

public function clean_text_match ($text, $all_words)
{
	//global $db, $bb_cfg;
	
	$text = ' '. mb_strtolower($text, 'UTF-8') .' ';
	
	if ($all_words)
	{
		$text = preg_replace('#\s(\b\w)#', ' +$1', $text);
	}
	//$text_match_sql = $db->escape(trim($text));
	
	return $text;
}
	
public function aaaAction()
{
	echo $this->clean_text_match( 'секс в большом городе', true );
}

результат: +секс +в +большом +городе
Вы уверены что получаете правильную строку?

Answer 4 · 2011-04-07 23:29:53

Цитирую, не мое но нашел и мне тоже интересно.

В PCRE есть специальные последовательности для различных классов Unicode-символов, например, «\p{L}» — это буквы, «\p{N}» — цифры и так далее.
…

Для начала напишите: $text = preg_replace('#\s(\b\pLN)#', ' +$1', $text);

Ну а далее есть еще другие методы:

bolknote.ru/2010/09/08/~2704#29

Answer 5 · 2011-04-07 23:36:12

Точнее просто \pL

И поиграться
www.php.net/manual/ru/regexp.reference.unicode.php

Где «Совпадение символов по Unicode свойству не является быстрой операцией, потому для этой цели PCRE необходимо осуществить поиск в структуре данных с более чем пятнадцатью тысяч символов. Поэтому традиционные управляющие последовательности в PCRE, такие как \d и \w, не используют Unicode свойства. „

Обработка текста в PHP регулярным выражением

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт