Почему так работают регулярные выражения?

Question

0ldn0mad @0ldn0mad

Регулярные выражения

Почему так работают регулярные выражения?

В python рег. выражения работают правильно, например:

import re
s = '''Если ты хочешь построить корабль, не надо созывать людей, планировать, делить работу, доставать инструменты. 
Надо заразить людей стремлением к бесконечному морю. Тогда они сами построят корабль.'''
pattern = r'\w+'
match = re.findall(pattern, s)
if match:
    print(match)

Выводит ожидаемо:
['Если', 'ты', 'хочешь', 'построить', 'корабль', 'не', 'надо', 'созывать', 'людей', 'планировать', 'делить', 'работу', 'доставать', 'инструменты', 'Надо', 'заразить', 'людей', 'стремлением', 'к', 'бесконечному', 'морю', 'Тогда', 'они', 'сами', 'построят', 'корабль']

Делаю то же самое в программе, на выходе черт знает что:
\w [a-z0-9] Буквы и цифры

Вообще не видит ни букв, ни слов.
Меняю на большую W
\W [^a-z0-9] Кроме букв и цифр

А здесь видит и буквы и цифры. Что не так?

Вопрос задан более трёх лет назад
145 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее
Stepik

Поколение Python: курс для профессионалов

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

8 комментариев

0ldn0mad @0ldn0mad Автор вопроса

Дык не только в ней одной. Я уж думал может что поменялось....Мол пропустил....

Написано более трёх лет назад
Saboteur @saboteur_kiev

не знаю, написано что PCRE, значит \w+ должно работать.
Смотрите опции, смотрите что за текст вы вставляете, может в нем кривые переносы строк.

Написано более трёх лет назад
0ldn0mad @0ldn0mad Автор вопроса

Saboteur, Оказывается, она не работает с кириллицей. Буду писать разработчику.

Написано более трёх лет назад
Saboteur @saboteur_kiev

0ldn0mad, купили программу?

Написано более трёх лет назад
0ldn0mad @0ldn0mad Автор вопроса

Saboteur, Нет, распространяется бесплатно.

Написано более трёх лет назад
Saboteur @saboteur_kiev

0ldn0mad, ну тогда вряд ли вам автор чем-то поможет. Даже сомневаюсь что MacTechnologies Corp содержит русскоязычных сотрудников

Написано более трёх лет назад
0ldn0mad @0ldn0mad Автор вопроса

Ну вопрос отправил на английском, типа так задумано принципиально без поддержки кириллицы или можно настроить? Хотя помню в ней же, когда PHP изучал, с кириллицей проблем не было.....санкции наверно.... =)

Написано более трёх лет назад
Saboteur @saboteur_kiev

причем тут санкции?
В php можно настроить локаль.
Тут совершенно другое дело, десктопная прога, переписывать ее для поддержки локалей - это гемор, потому что если переписывать по-хорошему, то для поддержки кириллицы, а для поддержки отличной от стандартной локали, а это UTF-8, со всем набором.
Бесплатные проги, они на самом деле не бесплатные. непонятно вам это зачем, если вы можете пользоваться php

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт. 2025
- 337 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент. 2025
- 283 просмотра
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент. 2025
- 313 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг. 2025
- 261 просмотр
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- более года назад
- 261 просмотр
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- более года назад
- 171 просмотр
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- более года назад
- 277 просмотров
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- более года назад
- 187 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- более года назад
- 168 просмотров
2

ответа
Регулярные выражения

Простой
Как захватить элементы по отдельности?
- 2 подписчика
- более года назад
- 323 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2020-06-07 02:51:45

pcre.org/original/doc/html/pcrepattern.html#SEC2

Unicode property support

Another special sequence that may appear at the start of a pattern is (*UCP). This has the same effect as setting the PCRE_UCP option: it causes sequences such as \d and \w to use Unicode properties to determine character types, instead of recognizing only characters with codes less than 128 via a lookup table.

Чтобы \w совпадало не только с латиницей нужно добавить (*UCP).

(*UCP)\w+

Answer 2 · 2020-06-07 00:27:23

Saboteur @saboteur_kiev

software engineer

в программе

А что это за программа, и кто писал реализацию регулярок в ней?
К автору и вопросы.

Ответ написан более трёх лет назад

8 комментариев

Почему так работают регулярные выражения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт