Как парсить текст с email-protected?

Question

rodion_ilnitskiy @rodion_ilnitskiy

Как парсить текст с email-protected?

Имеется данный код HTML:

<td>
OC[<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="e9aaa9a1">[email&#160;protected]</a>](OC(CCCCCCCCCCCCC)=O)COC(CCCCCCCCCCCCC)=O
</td>

Необходимо пропарсить текст с помощью python scrapy, чтобы итог выглядел как на сайте:
OC[C@H](OC(CCCCCCCCCCCCC)=O)COC(CCCCCCCCCCCCC)=O
Однако результат всегда иной:
['OC[', '](OC(CCCCCCCCCCCCC)=O)COC(CCCCCCCCCCCCC)=O']
Как решить эту проблему?
Вот код python scrapy:

response.xpath('//td[contains(text(),"Canonical SMILES")]/following::td[1]/text()').extract()

Вопрос задан более трёх лет назад
706 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Решения вопроса 1

6 комментариев

rodion_ilnitskiy @rodion_ilnitskiy Автор вопроса
пробовал, ответ выдает такой:

TypeError: int() can't convert non-string with explicit base
Написано более трёх лет назад
Рамис @ramzis

rodion_ilnitskiy, а что вы в функцию передаете?

Написано более трёх лет назад
rodion_ilnitskiy @rodion_ilnitskiy Автор вопроса
Рамис, переменную x, которая равна
response.xpath('//table[@class="table data grouped"]//td[@class="col stock"][contains(text(),"Please inquiry")]')
Написано более трёх лет назад
Рамис @ramzis

rodion_ilnitskiy, так переменная чему равна, покажите результат

Написано более трёх лет назад
rodion_ilnitskiy @rodion_ilnitskiy Автор вопроса

Рамис, Я выше писал: ['OC[', '](OC(CCCCCCCCCCCCC)=O)COC(CCCCCCCCCCCCC)=O']

Написано более трёх лет назад

Рамис @ramzis

rodion_ilnitskiy,

html = """<td>
OC[<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="e9aaa9a1">[email&#160;protected]</a>](OC(CCCCCCCCCCCCC)=O)COC(CCCCCCCCCCCCC)=O
</td>"""

from cgitb import reset
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

def decode(g):
    r = int(g[:2],16)
    email = ''.join([chr(int(g[i:i+2], 16) ^ r) for i in range(2, len(g), 2)])
    return email

start = str(soup).find('data-cfemail="')+len('data-cfemail="')
stop = str(soup)[start:].find('"')

x = str(soup)[start:start+stop]
result = str(soup.text).replace('[email\xa0protected]', decode(x))
print(result)

#OC[C@H](OC(CCCCCCCCCCCCC)=O)COC(CCCCCCCCCCCCC)=O

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 4 минуты назад
- 6 просмотров
0

ответов
Python

Сложный
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 52 минуты назад
- 8 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- вчера
- 144 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 146 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 1 подписчик
- 11 дек.
- 123 просмотра
0

ответов
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 191 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 171 просмотр
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 226 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 151 просмотр
1

ответ
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

Внезапно никак не распарсить через парсер потому что это защит от парсинга.

для старых вариантов решение, для актуального надо раскапывать JS который раскодирует это в браузре.
https://github.com/OdinF13/Cloudflare-email-decoder
https://stackoverflow.com/a/49207730/1603055

Answer 1 · 2022-04-08 12:40:52

Гуглить пробовали?, я попробовал и нашел.

def decode(g):
    r = int(g[:2],16)
    email = ''.join([chr(int(g[i:i+2], 16) ^ r) for i in range(2, len(g), 2)])
    return email

print(decode('e9aaa9a1'))

#C@H

Как парсить текст с email-protected?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт