Парсер на Python, как реализовать?

Question

Сергей Нижний Новгород @Terras

Python

Парсер на Python, как реализовать?

Ребят, имеет такая задача:

1) Человек заходит на специальную страницу, вводит в формочку логин и пароль.
2) Эти данные используются для входа в другой сервис.
3) Открывается внутренняя страница сервиса с данными, где начинают собираться данные.
4) Когда анализ одной страницы заканчивается, идет переход на следующую страницу, и так до стоп-условий итерации.
5) Собранные данные выгружаются в виде таблицы на специальном сайте.

Можете направить меня, как это лучше реализовать?
___________________________________

Ребят, в общем нашел примерный путь, можно использовать beautifulsoup.

Остался вопрос: А как из формы передать парсеру логин и пароль для входа в админку, чтобы он вошел?

Вопрос задан более трёх лет назад
1661 просмотр

2 комментария

Подписаться 14 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

5 комментариев

Кобальт Грозный @CobaltTheTerrible

Вообще и requests + lxml - ерунда. Вот httplib + expat + регулярки + написанный самостоятельно код для многопоточности - самое оно.

Написано более трёх лет назад
un1t @un1t

Для многопоточности бери какой-нибудь python-rq или celery и redis вот и все. Grab это если память не изменяет обертка над requests или urllib + lxml, довольно посредственная. Каких-то сильных преимуществ не дает, а интерфейс довольно ограниченный. Scrapy популярный фреймворк для написания парсеров, но надо было мне парсер написать, я начал читать про этот scrapy там черт ногу сломит, я быстрее парсер на request + lxml написал, чем понял как этот scrapy работает.

Написано более трёх лет назад
Заправщик Джон @Kuzmichik

Кобальт Грозный: Да и httplib ерунда. Берем сокеты, потом пишем простенький парсер HTML. Затем зафигачиваем свой DSL, чтобы найти нужный фрагмент в HTML. Для многопоточности берем конечно threading, а не попсовый asyncio или Twisted.

И вот когда через несколько лет до нас дойдет суровая правда серых будней программиста, читаем doc.scrapy.org и через несколько часов имеем офигенно быстрый скрэйпер, с поддержкой кук, с обработкой timeout-ов, с XPath, блекджеком и прочей никому не нужной чепухой.

Написано более трёх лет назад
Кобальт Грозный @CobaltTheTerrible

Kuzmichik мой комментарий был сарказмом. Автор ответа похоже писал какой-то совсем элементарный парсер, раз у него вышло проще с requests + lxml, чем со scrapy

Написано более трёх лет назад
Заправщик Джон @Kuzmichik

Кобальт Грозный: Дак я понял, просто вторая часть моего ответа получилась не смешная :-)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 188 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 232 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 151 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 125 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 139 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 262 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Юзер только вводит пароль и больше ничего не делает, дальше он тупо смотрит в экран где всё само происходит? Или он в каком-то окне делает действия (теже переходы по страницам), а программа собирает данные со страниц которые юзер посетил?
Syschel: лучше ничего не делает, а просто сидит и ждет. Либо, если это вообще возможно, сдеалать всю обработку в бекграунде.

Answer 1 · 2015-09-30 20:53:39

un1t @un1t

grab, scrapy - это все ернуда, request + lxml самое то. В более сложном случае понадобиться selenium и phantomjs.

Ответ написан более трёх лет назад

5 комментариев

Answer 2 · 2015-09-30 17:29:43

Используй
Библиотеку GRAB и MySQL иди SQLite
Grab имеет широкие возможности.

Так же пример парсера можешь посмотреть ТУТ

Answer 3 · 2015-09-30 21:15:48

Dimonchik @dimonchik2013

non progredi est regredi

scrapy стандарт сейчас де-факто в таком, но Граб проще в освоении

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2015-09-30 19:40:53

Можно посмотреть еще на Scrapy.

По своему опыту сразу скажу, что имеет смысл сохранять в какой-нибудь key-value storage все загружаемые страницы. Очень помогает потом в отладке

Answer 5 · 2015-10-01 13:56:16

Остался вопрос: А как из формы передать парсеру логин и пароль для входа в админку, чтобы он вошел?

doc.scrapy.org/en/1.0/topics/request-response.html...

Answer 6 · 2015-10-01 15:30:45

парсер это только половина роботы, beautifulsoup вполне себе пойдет.
2я половина требует авторизации на сайте, сохранение кук (которые прийдут в респонс хедерах) и передачу их при каждом последуюющем за авторизацией реквесте

Парсер на Python, как реализовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт