1) Человек заходит на специальную страницу, вводит в формочку логин и пароль.
2) Эти данные используются для входа в другой сервис.
3) Открывается внутренняя страница сервиса с данными, где начинают собираться данные.
4) Когда анализ одной страницы заканчивается, идет переход на следующую страницу, и так до стоп-условий итерации.
5) Собранные данные выгружаются в виде таблицы на специальном сайте.
Можете направить меня, как это лучше реализовать?
___________________________________
Ребят, в общем нашел примерный путь, можно использовать beautifulsoup.
Остался вопрос: А как из формы передать парсеру логин и пароль для входа в админку, чтобы он вошел?
Юзер только вводит пароль и больше ничего не делает, дальше он тупо смотрит в экран где всё само происходит? Или он в каком-то окне делает действия (теже переходы по страницам), а программа собирает данные со страниц которые юзер посетил?
Для многопоточности бери какой-нибудь python-rq или celery и redis вот и все. Grab это если память не изменяет обертка над requests или urllib + lxml, довольно посредственная. Каких-то сильных преимуществ не дает, а интерфейс довольно ограниченный. Scrapy популярный фреймворк для написания парсеров, но надо было мне парсер написать, я начал читать про этот scrapy там черт ногу сломит, я быстрее парсер на request + lxml написал, чем понял как этот scrapy работает.
Кобальт Грозный: Да и httplib ерунда. Берем сокеты, потом пишем простенький парсер HTML. Затем зафигачиваем свой DSL, чтобы найти нужный фрагмент в HTML. Для многопоточности берем конечно threading, а не попсовый asyncio или Twisted.
И вот когда через несколько лет до нас дойдет суровая правда серых будней программиста, читаем doc.scrapy.org и через несколько часов имеем офигенно быстрый скрэйпер, с поддержкой кук, с обработкой timeout-ов, с XPath, блекджеком и прочей никому не нужной чепухой.
Kuzmichik мой комментарий был сарказмом. Автор ответа похоже писал какой-то совсем элементарный парсер, раз у него вышло проще с requests + lxml, чем со scrapy
парсер это только половина роботы, beautifulsoup вполне себе пойдет.
2я половина требует авторизации на сайте, сохранение кук (которые прийдут в респонс хедерах) и передачу их при каждом последуюющем за авторизацией реквесте