Как научить Python в китайские иероглифы?

Question

Ivan Yakushenko @kshnkvn

yay ✌️ t.me/kshnkvn

Python

Как научить Python в китайские иероглифы?

Есть URL в котором присутствуют китайские иероглифы: https://www.linkedin.com/in/%E4%BD%A9-%E4%BD%A9-88...
В браузере они выглядят нормально:

Именно по этим символам мне нужно выполнить текстовый поиск в коде страницы, т.к. нужно привязаться к элементу:

В url requests отображается как "%E4%BD%A9-%E4%BD%A9-8855b5113", соответственно такой поиск не работает:

html.xpath(f'.//code[contains(text(), "publicIdentifier") and contains(text(), "%E4%BD%A9-%E4%BD%A9-8855b5113")]')

В тексте response эти символы отображаются так: ä½©-ä½©-8855b5113.
Т.е. для поиска мне нужно преобразовать строку %E4%BD%A9-%E4%BD%A9-8855b5113 в ä½©-ä½©-8855b5113.

Вопрос задан более трёх лет назад
328 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

9 комментариев

Ivan Yakushenko @kshnkvn Автор вопроса

И при чем тут браузер, если я питоном поиск выполняю?

Написано более трёх лет назад
Ternick @Ternick

Ivan Yakushenko, Вы написали что при копировании из браузера ссылки вы получаете из красивой ссылки совершенно другую "без китайских символов". Я вам сказал что браузер расшифровывает ссылки и показывает их вам, а на самом деле в url нет никаких символов китайских он выглядит так как вы его скопировали. И вы при этом наезжаете на питон якобы он не работает так как вы хотите ...

Написано более трёх лет назад
Ternick @Ternick

Ivan Yakushenko, Все url шифруются, например вот так:
обычный символ / зашифрованный символ
" " / %20
"=" / %3D
и т.д

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Ternick, во-первых я не "наезжаю на питон", во-вторвых мне нужно выполнить текстовый поиск этих иероглифов. Я могу выполнить поиск только по символам %E4%BD%A9-%E4%BD%A9-8855b5113, а мне нужно выполнить поиск по иероглифам, но requests.url выдает именно символьную ссылку.

Написано более трёх лет назад
Ternick @Ternick

Ivan Yakushenko, Если вам нужно что то найти среди зашифрованного url, тогда нужно его расшифровать и искать уже в расшифрованном тексте то что вам нужно, если вы до сих это не поняли ...

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Ternick,
если вы до сих это не поняли ...

Хорошо шутите.
Как мне строку "%E4%BD%A9-%E4%BD%A9-8855b5113" превратить в 佩-佩-8855b5113?

Написано более трёх лет назад
Ternick @Ternick
Ivan Yakushenko, Скудно у вас с веществом одним, ну да неважно :)
from urllib.parse import unquote html.xpath(f'.//code[contains(text(), "publicIdentifier") and contains(text(), unquote("%E4%BD%A9-%E4%BD%A9-8855b5113"))]')

Если что то будет не искать НАДЕЮСЬ НАЙДЁТЕ КАК ИСПРАВИТЬ параметр encode :)
Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Ternick, не стоит раскидываться оскорблениями в адрес чьих либо умственных способностей, особенно если сами не блещете. К слову предложенный вами вариант не работает:

P.S. encoding как параметр unquote не работает.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Ternick, хотя нет, с веществом проблемы наблюдаются. Проблема была не в кодировке url, а в кодировке самого response.

Написано более трёх лет назад