Почему так работают регулярные выражения?

Question

0ldn0mad @0ldn0mad

Регулярные выражения

Почему так работают регулярные выражения?

В python рег. выражения работают правильно, например:

import re
s = '''Если ты хочешь построить корабль, не надо созывать людей, планировать, делить работу, доставать инструменты. 
Надо заразить людей стремлением к бесконечному морю. Тогда они сами построят корабль.'''
pattern = r'\w+'
match = re.findall(pattern, s)
if match:
    print(match)

Выводит ожидаемо:
['Если', 'ты', 'хочешь', 'построить', 'корабль', 'не', 'надо', 'созывать', 'людей', 'планировать', 'делить', 'работу', 'доставать', 'инструменты', 'Надо', 'заразить', 'людей', 'стремлением', 'к', 'бесконечному', 'морю', 'Тогда', 'они', 'сами', 'построят', 'корабль']

Делаю то же самое в программе, на выходе черт знает что:
\w [a-z0-9] Буквы и цифры

Вообще не видит ни букв, ни слов.
Меняю на большую W
\W [^a-z0-9] Кроме букв и цифр

А здесь видит и буквы и цифры. Что не так?

Вопрос задан более трёх лет назад
134 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

8 комментариев

0ldn0mad @0ldn0mad Автор вопроса

Дык не только в ней одной. Я уж думал может что поменялось....Мол пропустил....

Написано более трёх лет назад
Saboteur @saboteur_kiev

не знаю, написано что PCRE, значит \w+ должно работать.
Смотрите опции, смотрите что за текст вы вставляете, может в нем кривые переносы строк.

Написано более трёх лет назад
0ldn0mad @0ldn0mad Автор вопроса

Saboteur, Оказывается, она не работает с кириллицей. Буду писать разработчику.

Написано более трёх лет назад
Saboteur @saboteur_kiev

0ldn0mad, купили программу?

Написано более трёх лет назад
0ldn0mad @0ldn0mad Автор вопроса

Saboteur, Нет, распространяется бесплатно.

Написано более трёх лет назад
Saboteur @saboteur_kiev

0ldn0mad, ну тогда вряд ли вам автор чем-то поможет. Даже сомневаюсь что MacTechnologies Corp содержит русскоязычных сотрудников

Написано более трёх лет назад
0ldn0mad @0ldn0mad Автор вопроса

Ну вопрос отправил на английском, типа так задумано принципиально без поддержки кириллицы или можно настроить? Хотя помню в ней же, когда PHP изучал, с кириллицей проблем не было.....санкции наверно.... =)

Написано более трёх лет назад
Saboteur @saboteur_kiev

причем тут санкции?
В php можно настроить локаль.
Тут совершенно другое дело, десктопная прога, переписывать ее для поддержки локалей - это гемор, потому что если переписывать по-хорошему, то для поддержки кириллицы, а для поддержки отличной от стандартной локали, а это UTF-8, со всем набором.
Бесплатные проги, они на самом деле не бесплатные. непонятно вам это зачем, если вы можете пользоваться php

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Регулярные выражения

Средний
Как выделить в группу повторяющееся выражение?
- 1 подписчик
- 17 апр.
- 135 просмотров
1

ответ
PHP

+1 ещё

Простой
Регулярное выражение поиск по группам или нет?
- 1 подписчик
- 15 апр.
- 208 просмотров
1

ответ
Python

+1 ещё

Простой
Как составить регулярку для выборки данных между символов?
- 1 подписчик
- 13 апр.
- 85 просмотров
1

ответ
PHP

+1 ещё

Простой
Как вытащить строку из текста?
- 1 подписчик
- 24 мар.
- 203 просмотра
2

ответа
Python

+2 ещё

Простой
Какова верная реализация множественного выбора в SQLite через LIKE и REGEXP (Python)?
- 1 подписчик
- 14 мар.
- 112 просмотров
2

ответа
Регулярные выражения

Простой
Как проверить отсутствие атрибута alt у тега img ругуляркой на php?
- 1 подписчик
- 11 мар.
- 63 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Как заменить всё между строк?
- 1 подписчик
- 08 мар.
- 129 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Как сформировать регулярное выражение из 5 символов для вывода?
- 1 подписчик
- 07 мар.
- 153 просмотра
2

ответа
Nginx

+1 ещё

Простой
Как захватить все запросы с trailing slash на конце?
- 1 подписчик
- 26 февр.
- 70 просмотров
2

ответа
JavaScript

+1 ещё

Простой
Как разбить многостроковый текст на массив с помощью регулярного выражения?
- 1 подписчик
- 26 февр.
- 106 просмотров
2

ответа
Показать ещё Загружается…

Консультант 1С (стажер) по направлению

Пять с плюсом • Смоленск

от 40 000 ₽

Senior коммуникационный дизайнер

Точка • Москва

от 170 000 ₽

Fullstack тестировщик (QA / Automation QA / SDET)

ЮMoney • Санкт-Петербург

от 150 000 до 350 000 ₽

Требуется завершить backend (проектная работа)

25 апр. 2024, в 19:42

49000 руб./за проект

Проверить тест по Data Science

25 апр. 2024, в 19:41

2000 руб./за проект

Верстка сайта и натяжка на wordpress

25 апр. 2024, в 19:22

18000 руб./за проект

Answer 1 · 2020-06-07 02:51:45

pcre.org/original/doc/html/pcrepattern.html#SEC2

Unicode property support

Another special sequence that may appear at the start of a pattern is (*UCP). This has the same effect as setting the PCRE_UCP option: it causes sequences such as \d and \w to use Unicode properties to determine character types, instead of recognizing only characters with codes less than 128 via a lookup table.

Чтобы \w совпадало не только с латиницей нужно добавить (*UCP).

(*UCP)\w+

Answer 2 · 2020-06-07 00:27:23

Saboteur @saboteur_kiev

software engineer

в программе

А что это за программа, и кто писал реализацию регулярок в ней?
К автору и вопросы.

Ответ написан более трёх лет назад

8 комментариев

Почему так работают регулярные выражения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт