Как обработать кириллические хештеги?

Question

Ywka @Ywka

Как обработать кириллические хештеги?

Добрый день всем.
Есть кусочек кода для поиска в тексте хештегов:

pattern= re.compile(r'\#\w+')

hashtags = re.findall(pattern, text)

Но вот справляется только с латиницей.
Как извлечь все хештеги, включая кириллицу?
Спасибо.

Вопрос задан более трёх лет назад
401 просмотр

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 198 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 512 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 483 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 276 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 497 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 209 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-02-03 19:16:33

python3

In [2]: print(re.findall(re.compile(r'\#\w+', re.IGNORECASE), 
                                   "#1aaa sdfs #ввв2 dfsdf sdf s"))
['#1aaa', '#ввв2']

python2

In [2]: print(re.findall(re.compile(ur'\#[0-9a-zа-я_-]+', re.IGNORECASE), 
                                   u"#1aaa sdfs #ввв2 dfsdf sdf s"))
[u'#1aaa', u'#\u0432\u0432\u04322']

python2 правильно (спасибо за чтение документации @aklim007)

In [2]: print(re.findall(re.compile(r'\#\w+', re.IGNORECASE|re.U), 
                                   u"#1aaa sdfs #ввв2 dfsdf sdf s"))
[u'#1aaa', u'#\u0432\u0432\u04322']

Answer 2 · 2016-02-03 20:39:33

https://docs.python.org/2/library/re.html
\w
When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.

достаточно включить юникодовй режим и под \w начнут попадать юникодовые символы
pattern= re.compile(r'\#\w+', re.U)

Answer 3 · 2016-02-03 18:27:22

Олег Краснов @OKrasnov

\#[а-яa-z]+

Ответ написан более трёх лет назад

Комментировать

Как обработать кириллические хештеги?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт