Задать вопрос

Родион @Rodion2

парсинг

Парсинг

Как правильно составить логику парсера сайта?

Добрый день
Пишу парсер сайтов
Целевые сайты совершенно "классические" - пагинация, на странице куча элементов(далее тумбы) + надо зайти в каждый тумб и получить доп инфу уже внутри

Вопрос собственно в том - правильно ли я себе представляю логику работы парсера
В гугле нашел только сам процесс парсинга, а вот как это все поставить "на поток" - четкой инструкции нет, да и впринципе не может быть - так как у всех задачи разные.

В общем - мой примерный алгоритм:
сначала парсер забирает себе ссылки пагинации
запоминает их в бд
Далее начинает проходиться по каждой из ссылок пагинатора - собирает все ссылки на тумбы, всю доступную инфу по ним, заодно помечает текущую ссылку пагинатора "пройденой"
далее проходится по всем сссылкам тумб - собирает финальную информацию
Все.

Вопросы
1) может я выдумываю свой велосипед, а умные люди уже все это сделали за меня ? (если "да" - то дайте ссылку - буду благодарен)
2) запуск парсера я повесил на крон - правильно ? (если нет - то скажите правильный подход)

Спасибо )

Вопрос задан более трёх лет назад
226 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

OTUS

iOS Developer

12 месяцев

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- вчера
- 191 просмотр
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 308 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 184 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 254 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 202 просмотра
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 205 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 285 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 132 просмотра
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 227 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 570 просмотров
2

ответа
Показать ещё Загружается…

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Backend Engineer

Kotify

от 3 000 до 5 000 €