Добрый день!
Нужно спарсить контактную информацию с сайта
https://www.malls.ru/rus/malls/?mainmenu.
Написал следующий парсер:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
t = []
links = []
for i in range(1,3):
r = requests.get(f'https://www.malls.ru/rus/malls/?mainmenu=&nocdn=nocdn&PAGEN_1={i}')
i_1 = re.findall(r'a href=(.+?) title', r.text)
links.append(i_1)
linnks_itog = []
for u in links:
t = u[1:16]
linnks_itog.append(t)
linnks_itogs = []
for y in linnks_itog:
for p in y:
o = 'https://www.malls.ru' + p
o = o.replace('"', '')
linnks_itogs.append(o)
name_torg_center = []
telepfon = []
name_contact = []
for l in linnks_itogs:
rt = requests.get(l)
name_tc = re.findall(r'<h1 itemprop="name">(.+?)</h1>', rt.text)
name_torg_center.append(name_tc)
telepfon_tc = re.findall(r'<span itemprop="telephone">(.+?)</span>', rt.text)
telepfon.append(telepfon_tc)
name_contact_tc = re.findall(r'<div class="name">(.+?)</div>', rt.text)
name_contact.append(name_contact_tc)
Дошел до e-mail и не пойму как достать его лучшим способом... Так как ответ requests выдает следующий
<a href="/cdn-cgi/l/email-protection#2d44585b6d414c404c035942405e46035f58" title="iuv@lama.tomsk.ru"><span itemprop="email"><span class="__cf_email__" data-cfemail="523b2724123e333f337c263d3f21397c2027">[email protected]</span>