[Решено] Bash, regexp и кириллица?

Question

Ёж Туманный @paramtamtam

[Решено] Bash, regexp и кириллица?

Доброго времени суток, %username%.

Есть у нас bash скрипт, который работает на различных платформах (от старенького Debian GNU/Linux 5.0 (Linux 2.6.32.11, bash 3.2.39) до Red Hat 4.8.2 (Linux 3.10.0, bash 4.2.46)). Скрипт этот на входе (в качестве параметра или STDIN) принимает строку, которая содержит много всего. Строка эта обрабатывается, лишнее - вырезается, итог вставляется в JSON-запрос и отправляется дальше. Но столкнулся с задачей, которую решить на данный момент не получается. А заключается она в следующем:

Необходимо составить регулярное выражение, которое будет вырезать все символы, кроме латиницы, кириллицы, чисел и знаков пунктуации.

И всё бы хорошо, в ряде ОС у нас кириллица в исходниках - воспринимается в штыки. Т.е. скрипт работает до тех пор - пока не появится необходимость его отредактировать/поправить. После попытки редактирования, из-за конструкции вида:

string=${string//[^0-9A-Za-zА-Яа-яЁё]/_};

(а именно из-за А-Яа-яЁё) сохранить открытый файл в том же nano - проблематично. Самое на мой взгляд логичное решение - заменить сами символы кириллицы - их кодами, но как? Попытки вида \430-\44f \u430-\u44f \x430-\x44f - не приносят успеха. При просмотре кодов hexdump-ом у нас картинка следующая:

printf 'abcd' | hexdump -C; exit 0;
$ ./test.sh
00000000  61 62 63 64                                       |abcd|
00000004

printf 'абвг' | hexdump -C; exit 0;
$ ./test.sh test
00000000  d0 b0 d0 b1 d0 b2 d0 b3                           |........|
00000008

printf %x "'а"; echo " "; printf %x "'я"; exit 0;
$ ./test.sh test
430
44f

printf %x "'a"; echo " "; printf %x "'z"; exit 0;
$ ./test.sh test
61
7a

Окончательно формирую свой вопрос:

Какой вид должно иметь регулярное выражение (применимое по возможности в чистой среде bash), уделяющее все символы, кроме латиницы, кириллицы, чисел и знаков пунктуации, учитывая что диапазон символов кириллицы должен быть записан в виде диапазона кодов символов, а не самих символов.

Заранее спасибо сообществу.

// данный вопрос задан и на ru.stackoverflow.com

Вопрос задан более трёх лет назад
2504 просмотра

1 комментарий

Подписаться 3 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

7 комментариев

Ёж Туманный @paramtamtam Автор вопроса

Нет, к сожалению. Правило:

string=${string//[^\xDO\x90-\xd0\xbf\xd1\x80-\xd1\x8f\xd0\x81\xd1\x91]/_};

Ввод:

message_text='qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM абв..эюяАБВ..ЭЮЯ 1234567890~!@#$%^&*()_"`'"'";
string="<!DOCTYPE html><html><body>$message_text</body></html>";

Вывод:

__DOCT_PE_html__html__bod__qwert_uiopasdfghjkl_xcvbnmQWERT_UIOPASDFGHJKL__CVBNM__________________1234567890_________________bod____html_

Написано более трёх лет назад

Shetani @Shetani

Странно, грипает нормально.

Написано более трёх лет назад

Ёж Туманный @paramtamtam Автор вопроса

Shetani: а таки попробуй в баше выполнить:

$ message_text='qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM абв..эюяАБВ..ЭЮЯ 1234567890~!@#$%^&*()_"`'"'"; string='<!DOCTYPE html><html><body>'$message_text'</body></html>'; string=${string//[^\xDO\x90-\xd0\xbf\xd1\x80-\xd1\x8f\xd0\x81\xd1\x91]/_}; echo $string;

Написано более трёх лет назад

Shetani @Shetani
Kot Kotov: Так не работает. Но если воспользоваться перлом, то все получается
echo $string | perl -lpe 's/[^0-9A-Za-z\xDO\x90-\xD0\xBF\xD1\x80-\xD1\x8F]/_/g'
Написано более трёх лет назад
Ёж Туманный @paramtamtam Автор вопроса

Shetani: да, но порождает зависимость.. Почему на чистом баше то не работает?

Написано более трёх лет назад
Shetani @Shetani

Видимо баш умеет только некоторые ASCII символы (тут например так пишут пост №3 ubuntuforums.org/showthread.php?t=869824) . А перл не такая уж и зависимость, наверное везде есть по умолчанию.

Написано более трёх лет назад
Ёж Туманный @paramtamtam Автор вопроса

Видимо - да.. Полная версия решения описана на stackoverflow.com. Спасибо, Shetani

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
В BIOS исчезла запись Linux (GRUB) в Boot Priority, как её восстановить?
- 2 подписчика
- 9 часов назад
- 79 просмотров
1

ответ
Linux

+4 ещё

Средний
Какое выбрать окружения для S3 Garage?
- 1 подписчик
- 12 часов назад
- 64 просмотра
4

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 296 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1076 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 333 просмотра
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 389 просмотров
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 298 просмотров
1

ответ
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 157 просмотров
2

ответа
Linux

+1 ещё

Средний
Рост CLOSE-WAIT и утечки TCP-сокетов в Xray (vless + reality) — что делать?
- 3 подписчика
- 05 июн.
- 1181 просмотр
2

ответа
Linux

+1 ещё

Средний
Редактирование загрузочного меню GRUB?
- 1 подписчик
- 23 мая
- 440 просмотров
3

ответа
Показать ещё Загружается…

Решение было найдено, и описано на stackoverflow.com. Отдельное спасибо Shetani

Answer 1 · 2015-05-16 14:26:47

попробуйте заменить кириллицу диапазонами \xDO\x90-\xd0\xbf и \xd1\x80-\xd1\x8f Ё \xd0\x81 ё \xd1\x91

string=${string//[^0-9A-Za-z\xDO\x90-\xd0\xbf\xd1\x80-\xd1\x8f\xd0\x81\xd1\x91]/_};

Answer 2 · 2015-05-16 23:15:16

Можно так:

message_text='qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM абв..эюяАБВ..ЭЮЯ 1234567890~!@#$%^&*()_"`'"'"
string="<\!DOCTYPE html><html><body>$message_text</body></html>"

cyrillic=$'\xd0\x90-\xd0\xaf\xd0\xb0-\xd1\x8f\xd0\x81\xd1\x91' # 'А-Яа-яЁё' в utf-8
old_collate=$LC_COLLATE
LC_COLLATE=C # иначе могут быть неочевидные эффекты (например, "À" приравняется к "A")
eval "string=\${string//[^0-9A-Za-z${cyrillic}]/_}" # с eval нужно аккуратно. в данном случае всё OK, он выполнит строку string=${string//[^0-9A-Za-zА-Яа-яЁё]/_}
LC_COLLATE=$old_collate
echo "$string"

Answer 3 · 2015-05-18 10:55:33

1. Кака вариант посикс класы но не факт что прокатит уж больно они новые.
2. Доставь кирилицу как правило это делается на раз два
3. Сделай обратное исключение

[Решено] Bash, regexp и кириллица?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт