Как вытащить email со страницы?

Question

sanglobalenus @sanglobalenus

Python

Как вытащить email со страницы?

Добрый день!

Нужно спарсить контактную информацию с сайта https://www.malls.ru/rus/malls/?mainmenu.

Написал следующий парсер:

import requests
from bs4 import BeautifulSoup 
import pandas as pd
import re

t = []
links = []
for i in range(1,3):
    r = requests.get(f'https://www.malls.ru/rus/malls/?mainmenu=&nocdn=nocdn&PAGEN_1={i}')
    i_1 = re.findall(r'a href=(.+?) title', r.text)
    links.append(i_1)
    
linnks_itog = []
for u in links:
    t = u[1:16]
    linnks_itog.append(t)

linnks_itogs = []
for y in linnks_itog:
    for p in y:
        o = 'https://www.malls.ru' + p
        o = o.replace('"', '')
        linnks_itogs.append(o)

name_torg_center = []
telepfon = []
name_contact = []

for l in linnks_itogs:
    rt = requests.get(l)
    name_tc = re.findall(r'<h1 itemprop="name">(.+?)</h1>', rt.text)
    name_torg_center.append(name_tc)
 
    telepfon_tc = re.findall(r'<span itemprop="telephone">(.+?)</span>', rt.text)
    telepfon.append(telepfon_tc)
  
    name_contact_tc = re.findall(r'<div class="name">(.+?)</div>', rt.text)
    name_contact.append(name_contact_tc)

Дошел до e-mail и не пойму как достать его лучшим способом... Так как ответ requests выдает следующий

<a href="/cdn-cgi/l/email-protection#2d44585b6d414c404c035942405e46035f58" title="iuv@lama.tomsk.ru"><span itemprop="email"><span class="__cf_email__" data-cfemail="523b2724123e333f337c263d3f21397c2027">[email&#160;protected]</span>

Вопрос задан более трёх лет назад
338 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 1 подписчик
- 2 часа назад
- 20 просмотров
0

ответов
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 107 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 178 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 219 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 147 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 147 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 108 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 254 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 300 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 166 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Answer 1 · 2021-02-14 16:46:44

Костыльное решение, но рабочее для вашего случая:

test_string = '<a href="/cdn-cgi/l/email-protection#2d44585b6d414c404c035942405e46035f58" title="iuv@lama.tomsk.ru"><span itemprop="email"><span class="__cf_email__" data-cfemail="523b2724123e333f337c263d3f21397c2027">[email&#160;protected]</span>'

email = test_string.split('title="')[1].split('"')[0]

Есть готовые регулярные выражения для нахождения e-mail адресов, от самых простых до очень больших и сложных.

По примеру этого решения можно сделать так:

>>> import re
>>> test_string = '<a href="/cdn-cgi/l/email-protection#2d44585b6d414c404c035942405e46035f58" title="iuv@lama.tomsk.ru"><span itemprop="email"><span class="__cf_email__" data-cfemail="523b2724123e333f337c263d3f21397c2027">[email&#160;protected]</span>'
>>> match = re.findall(r'[\w\.-]+@[\w\.-]+', test_string)
>>> match
['iuv@lama.tomsk.ru']

Надеюсь, мой ответ вам помог

Answer 2 · 2021-02-14 18:52:11

Так же, как и обычный элемент. Через bs4 с помощью xpath либо других селекторов.
Ну или если нужен регекс, то

mail = re.search('title="(.+?)"><span itemprop="email"', html)
print(mail.group(1))

Как вытащить email со страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт