Как парсить сайт на python?

Question

Тая @Taya93

Брест

Как парсить сайт на python?

надо спарсить сайт https://koleso.ru/shops/, достать данные о каждом магазине (адрес, телефон, время работы, координаты)

но проблема заключается в том, как это сделать ? не могу найти, где берутся координаты.
помогите пожалуйста

Вопрос задан более трёх лет назад
2542 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Тая @Taya93 Автор вопроса

Александр спасибо, вроде бы работает, но не совсем разобралась в ващем коде ?
1) import re - это вызов библиотеки для использования регулярных выражений
2) from urllib.request import urlopen - для работы с интернетом
а вот строки 3, 4, 5. можете объяснить ?
как я поняла, в стр №3 мы описываем принцип поиска координат, но почему именно так
стр4 - это читаем нужный урл, где будем искать координаты
стр №5 делаем результат, те генератор списков собирает сроку

а так же такой вопрос: выдает список в разнобой, а как его отсортировать ?

конечно, если Вам не тяжело будет
заранее благодарна

Написано более трёх лет назад
Александр @NeiroNx

про 3 - есть сайт regex101.com

список идет в таком порядке, в каком он и прописан в коде страницы.

Написано более трёх лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 491 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 504 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 213 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-05-14 18:02:47

Для некоторых задач селениум избыточен:

>>> import re
>>> from urllib.request import urlopen
>>> regex = r"createObject\(\"Placemark\",\s?new\sYMaps\.GeoPoint\(([\d\s\.\,]+)\),\s?\"(\w+)\",\s?'([^']+)'\s?\);"
>>> text = str(urlopen("https://koleso.ru/shops/").read(),"windows-1251")
>>> result = [list(x.groups()) for x in re.finditer(regex, text, re.MULTILINE)]
>>> result[0]
['37.834803,55.776082', 'Koleso', '<div><a class="MenuNav_YmapsBalloonPreButton" style="font-size:11px;" href="/shops/3653118/">Карточка магазина</a></div><div class="MenuNav_YmapsBalloonComment"><b>г. Москва</b><br />ш. Энтузиастов, д. 63<br />тел.: +7(499)308-59-93</div>']
>>>

но регулярку надо уметь написать

Answer 2 · 2019-05-14 17:42:50

Stanislav Pugachev @Stqs

senior software developer

https://scrapy.org/

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2019-05-14 16:04:08

Я сам недавно начал изучать это направление и использую Selenium.
Сложного ничего если есть минимальные знания HTML, можно конечно и без них

Как парсить сайт на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт