Как сделать замену кавычек на «елочки» через регулярку?

Question

kotey @kotey

Как сделать замену кавычек на «елочки» через регулярку?

Доброго времени суток, уважаемые!
Возникла необходимость сделать при обработке текста замену прямых скобок (") на красивые елочки («ёлочки» ).
То есть, имеется текст:
"Он сказал, - поехали"
"Он сказал поехали!"
"Он сказал - поехали?"
"Он сказал поехали?!"
"Он сказал поехали..."
"Он сказал "поехали"
где надо всё поменять на
«Он сказал, — поехали»
«Он сказал поехали!»
«Он сказал — поехали?»
«Он сказал поехали?!»
«Он сказал поехали...»
«Он сказал «поехали»

Так как сам я нуб нубом, то полез искать, как это делается умными людьми.
Нашел вполне рабочую регулярку:
$datatext = preg_replace('#"(.*?)"#', '«$1»', $datatext);
Она работает, всё хорошо, но!
Вот в этом случае (когда внутри кавычек присутствует ещё одна):
"Он сказал "поехали"
результат получается:
«Он сказал »поехали"
Что неприемлимо, увы.
Но мы же, нубочайники, не привыкли отступать!
После применения альтернативного мЫшления было решено разбить задачу на составляющие. То есть, сделать две регулярки. Первая заменяет кавычку в начале слова, а потом, уже вторая, в конце слова.
$datatext=preg_replace('/\B\"\b/','«',$datatext); // в начале
$datatext = preg_replace('/\b(.*?)"/', '$1»', $datatext); // в конце

Что самое удивительное, эта вот конструкция работает! Но вставлять её в сайт страшно. Поскольку я слабо понимаю как она работает (особенно второе выражение), и чем это может грозить.
Поэтому огромная просьба к опытным людям, дать оценку этому художеству на предмет безопасности/производительности.
Вроде: "Написано левой ногой через правое ухо, но в принципе ничего опасного, вставляй на свой сайтик и не надоедай больше"
Или же: "Нубас, если ты вот это убожество вставишь (неважно куда) базы рухнут, сервер повиснет и к тебе хостеры с бейсбольными битами прибегут! Так что, сотри немедленно и больше никому не показывай!"
Заранее благодарю за ответ.

Вопрос задан более трёх лет назад
5679 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

44 комментария

kotey @kotey Автор вопроса

Кажется, я что-то делаю не так. У меня вообще не работает =( Уже просто скопировал ваш пример в отдельный файл (только поменял _$datatext=<<

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: тэги <?php .... ?> не забыли?

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight:
*шмыгает носом* за что Вы уж так то? Чайник, но не настолько же!
файл:
<?php
$datatext='"Он сказал, - поехали"';
$datatext=preg_replace_callback(
'#((^|\s)\".)|(.\"($|\s))#u',
function ($matches) {
if ($matches[1]) return str_replace('"',"«",$matches[1]);
else return str_replace('"',"»",$matches[3]);
},
$datatext
);
echo "проба: ".$datatext."";
?>
На выходе получаем страницу с html:
проба:

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: Закопипастил Ваш код: проба: «Он сказал, - поехали»

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: у Вас кодировка страницы - UTF-8? файл сохраняете - в UTF-8 ?

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight:
Понял, осознал, чайник =))
Нет, у меня по умолчанию файл а ANSI был (редактор так настроен), сейчас перекодировал в UTF-8 всё заработало.
Огромное спасибо!
Осталось чегонить с кодировкой придумать, поскольку сайт на нубском cp1251

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: ))

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: Как решение вопроса - мой ответ годится?)

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: Спасибо!

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Простите, а не подскажете, чем этому коду православная кириллица не понравилась?
Чего он кривляется-то, как не знаю кто?

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: #..#u -
u - означает юникод. уберите u и будет работать в однобайтовой кодировке. (но я не советую, только если у вас всё в однобайтовой).
в общем, переходите на UTF-8 чем быстрее, тем лучше.

Написано более трёх лет назад
kotey @kotey Автор вопроса
xmoonlight: понял, спасибо! (увы, всё в однобайтовой)
upd:
Я счас застрелюсь. С удалением "U" скрипт кривляться перестал, НО
если в начале текста ставится тег (то есть, знак вместо пробела, кавычка опять не обрабатывается)
<tab>"Он сказал, — поехали»
Господибожемой, это не кончится ни-ког-да!

Простите, бога ради, понимаю, что утомил уже своей тупизной, но вот это вот
$datatext=preg_replace('/\B\"\b/','«',$datatext); // в начале $datatext = preg_replace('/\b(.*?)"/', '$1»', $datatext); // в конце

совсем ужас, или сойдет? Понимаете, оно всё же работает, и хоть в общих (сильно общих) я знаю как оно работает. А больших текстов на обработку не предвидится.
Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: я поправил выражение в вопросе. не стреляйтесь)

Написано более трёх лет назад
xmoonlight @xmoonlight
kotey: Отредактировал - скопируйте код полностью.
Актуальное выражение:
'#((?![A-Za-zА-Яа-яЁё])\".)|(.\"(?![A-Za-zА-Яа-яЁё]))#u',
Написано более трёх лет назад
kotey @kotey Автор вопроса
xmoonlight: Ох, огроменннннное спасибо!
Там только один нюанс (я уже почти стрелялся, но осечка вышла, пришлось чуть подумать)
В коде функции в условии else
function ($matches) { if ($matches[1]) return str_replace('"',"«",$matches[1]); else return str_replace('"',"»",$matches[2]); },

если указано $matches[3] обрезается последний символ в слове, то есть из
"Он сказал, — поехали"
возвращает
«Он сказал, — поехал
НО, если изменить на $matches[2] всё работает. Кажется.

upd
Только одиночные буквы обрабатывать не хочет.
из "б"
возвращает «б"
а из
"б" "пробник"
выводит
«б« «пробник»
Ну да черт с ним, это редко попадается.

Ещё раз спасибо! Извините, что отнял столько времени.
Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: UPD ответа... проверяйте.

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Ух! Оно работает! Оно прям... (ну, разве что на машинке не вышивает). Любые сочетания обрабатывает корректно.
Оггрромное спасибо ещё раз!

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: Welcome! (размялся я )) )

Написано более трёх лет назад
kotey @kotey Автор вопроса

Крохотный нюанс, в условия я добавил ещё цифры
[A-Za-zА-Яа-яЁё0-9]
а то елочки переворачивало, если место слова "888" в закавыченной фразе.

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: не могу потестить... примерчик строчки скиньте...

Написано более трёх лет назад
kotey @kotey Автор вопроса

Да там мелкая плюшка, просто, что бы уж совсем экзотичные варианты учесть.
Исходная строка:
$datatext='"7" "444 "888"
"а" "ддд "жжж"';
если регулярка '#((?![A-Za-zА-Яа-яЁё])\")|(.\"(?![A-Za-zА-Яа-яЁё]))#u'
то возвращает
«7» »444 »888»
«а» «ддд «жжж»

если добавляем в условия цифры '#((?![A-Za-zА-Яа-яЁё0-9])\")|(.\"(?![A-Za-zА-Яа-яЁё0-9]))#u'
то получаем, корректные елочки и с цифрами
«7» «444 «888»
«а» «ддд «жжж»

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: оптимизировал выражение немного, сделал заодно и пустые кавычки, а то - мало ли встретятся)
теперь, надеюсь все "дырки" закрыли?)

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight:
Хм... как-то что-то сбилось
исходник:
"б" "пробник"
"7" "444" "" "888"
"а" "ддд" "" "жжж"

старый вариант (до оптимизации)
«б» «пробник»
«7» «444» »« «888»
«а» «ддд» »« «жжж» (только пустые кавычки елочками внутрь)

оптимизированный
«б» »пробник»
«7» «444» »« «888»
«а» »ддд» »« »жжж» (вдобавок сбилось в буквах)

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: выражение '#(([\"]{2,})|(?![^\W])(\"))|(.\"(?![\w]))#u', вроде работает как по старому варианту... код целиком заменили?
с "бабочкой" - пока разбираюсь....

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: поправил "бабочку"..... вроде теперь должно работать...
код тот же, только выражение надо скопировать из ответа.

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: результат:
«б» «пробник»
«7» «444» «» «888»
«а» «ддд» «» «жжж»

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Да, теперь прям... ну вот... даже не знаю, что там ещё придумать и как извратиться =)

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: ясн)) ну главное, чтобы Ваша задача решилась и к этому куску кода - больше не возвращаться. Просто всегда все функции/классы стараюсь до максимума всё делать, чтобы потом не переделывать, а только использовать.

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Очень надеюсь, что всё =)
Ещё раз огромное спасибо за помощь!

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: BUG-FIX небольшой на повторяющиеся кавычки справа...
осталось еще слева добить....

Написано более трёх лет назад
kotey @kotey Автор вопроса

повторяющиеся, это двойные? Типа ««поехали»»?

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: да. ща только справа я сделал, как слева - пока не могу понять..

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: А-а. Понятно. Только не помню подобных примеров. Надо ли?
Я вот про другое сейчас подумал. А если научить эту функцию кавычки в тегах пропускать не обрабатывая? Чтобы не только текст, но и с тегами можно было через неё прогонять.
Или плохая идея? Оно ведь и в тексте может встретиться фраза вроде:
он сказал <точнее "подумал"> "поехали!"
разве что выключатель через radio прикрутить. Типа установил в режим html - пропускает, установил "текст" - обрабатывает.

Написано более трёх лет назад
xmoonlight @xmoonlight
kotey: а такое:
Он <a href='javascript:alert("\"Поехали-\ ка они все\ !\"")'>сказал</a>
тоже тогда делать надо? )
Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Подумав ещё. Ну, получается, что надо как-то
IF (тут проверяем положение radio) если "текст" то задействуем вот эту, из Вашего ответа, которая всё подряд ёлочит
ELSE
другую регулярку, которая кавычки между уголками будет пропускать <тег и атрибуты всякие>.

з.ы. даже не radio тогда, а чекбокс. Поставил галку "пропускать теги" и всё, можно "елочить" текст с тегами, теги сохранятся

Написано более трёх лет назад
kotey @kotey Автор вопроса

upd: вообще, имхо, пропускать весь текст между уголков, не важно есть там кавычки или нет <>, где то я такую регулярку видел.

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: так значит строки внутри JS не правим?

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Имхо, не стоит. Ненужное усложнение. Ссылки в внутри JS мало того, что редкость, так и довольно специфичны и в самом тексте обычно не отображаются. Так какой смысл с ними возиться?

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: ну, наверно, да.... а ёлочные кавычки - Вам вообще для каких текстов потребовались зачем вообще-то это?
Я предположил, что для оформления блога в книгу или вёрстка книг для печатного издания... Другое - даже не могу предположить....

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Для оформления текстов. То есть, есть предположим вордовский документ и его надо разместить на СИ
Тут вырезаем лишние строки, а в начале абзацев делаем "красную строку" размещая тег < dd >, если этот же текст надо выложить на BB-форуме, то вместо тега делаем "красную строку" тройным пробелом, если на ФБ то делаем тегом < tab >.
И вот чтобы не париться со всем этим вручную есть примитивно-нубский скрипт, который делает всё это в один клик.
Ну, он там ещё минусы где надо меняет на "длинное" тире, вырезает лишние пробелы и пустые строки... Фигня, короче, но КАК облегчает жизнь, Вы не представляете. И вот тут вот пришло в голову допилить "елочки", чтобы если текст перекидываешь с СИ (где по умолчанию любые кавычки переводятся в двойные) на ФБ, возвращались красивые елочки.

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: Понятно все, кроме... СИ - даже не догадываюсь что это!... (сеть интернет, средства информации, ...)
(Теги - ща делаю, чтоб пропускало)

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: =))))) СИ - СамИздат samlib.ru

Написано более трёх лет назад
xmoonlight @xmoonlight

kotey: никогда бы не угадал.... ))))))))))))

Написано более трёх лет назад
kotey @kotey Автор вопроса

xmoonlight: Сорь, просто СИшники часто забывают, что кроме них, графоманов, есть и нормальные люди, которым "СИ" (произносить с придыханием или презрительно скривившись, в зависимости от отношения) ни о чем не говорит =))

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

kotey @kotey Автор вопроса

Увы, это решение не работает, поскольку выходит просто пропуск непарной кавычки, плюс обрезание последнего знака. =(
То есть на выходе получаем:
«Он сказал "поехал»

Написано более трёх лет назад
Atllantis @Atllantis

kotey: Как должно быть в итоге?

Написано более трёх лет назад
kotey @kotey Автор вопроса

Ну в примере с двумя регулярками все непарные кавычки обрабатываются.
На выходе получаем:
«Он сказал «поехали»
То есть вроде как всё нормально, но: а) регулярок две, б) страшные они какие-то.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 200 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 450 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 247 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2463 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 340 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 251 просмотр
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 282 просмотра
3

ответа
Показать ещё Загружается…

Answer 1 · 2016-07-03 17:38:54

Вот этот - наиболее производительный и гибкий код, чем тот, что написан у Вас:

$datatext=<<<t
"Он сказал, - поехали"
"Он сказал поехали!"
"Он сказал - поехали?"
"Он сказал поехали?!"
"Он сказал поехали..."
"Он сказал "поехали"
<b>"Он сказал, — поехали"</b>
"Ж"
"Ж" "полная"
"7" "444 "888"
""
t;

$datatext=preg_replace_callback(
        '#(([\"]{2,})|(?![^\W])(\"))|([^\s][\"]+(?![\w]))#u',
        function ($matches) {
            if (count($matches)===3) return "«»";
            else if ($matches[1]) return str_replace('"',"«",$matches[1]);
            else return str_replace('"',"»",$matches[4]);
        },
        $datatext
    );

echo "<pre>".$datatext."</pre>";

/*
«Он сказал, - поехали»
«Он сказал поехали!»
«Он сказал - поехали?»
«Он сказал поехали?!»
«Он сказал поехали...»
«Он сказал «поехали»
«Он сказал, — поехали»
«Ж»
«Ж» «полная»
«7» «444 «888»
«»
*/

Answer 2 · 2016-07-03 15:21:50

Atllantis @Atllantis

Как вариант: "(.*?)\S"

Ответ написан более трёх лет назад

3 комментария

Как сделать замену кавычек на «елочки» через регулярку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт