Как правильно составить логику парсера сайта?

Добрый день
Пишу парсер сайтов
Целевые сайты совершенно "классические" - пагинация, на странице куча элементов(далее тумбы) + надо зайти в каждый тумб и получить доп инфу уже внутри

Вопрос собственно в том - правильно ли я себе представляю логику работы парсера
В гугле нашел только сам процесс парсинга, а вот как это все поставить "на поток" - четкой инструкции нет, да и впринципе не может быть - так как у всех задачи разные.

В общем - мой примерный алгоритм:
сначала парсер забирает себе ссылки пагинации
запоминает их в бд
Далее начинает проходиться по каждой из ссылок пагинатора - собирает все ссылки на тумбы, всю доступную инфу по ним, заодно помечает текущую ссылку пагинатора "пройденой"
далее проходится по всем сссылкам тумб - собирает финальную информацию
Все.

Вопросы
1) может я выдумываю свой велосипед, а умные люди уже все это сделали за меня ? (если "да" - то дайте ссылку - буду благодарен)
2) запуск парсера я повесил на крон - правильно ? (если нет - то скажите правильный подход)

Спасибо )
  • Вопрос задан
  • 222 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы