Добрый день
Пишу парсер сайтов
Целевые сайты совершенно "классические" - пагинация, на странице куча элементов(далее тумбы) + надо зайти в каждый тумб и получить доп инфу уже внутри
Вопрос собственно в том - правильно ли я себе представляю логику работы парсера
В гугле нашел только сам процесс парсинга, а вот как это все поставить "на поток" - четкой инструкции нет, да и впринципе не может быть - так как у всех задачи разные.
В общем - мой примерный алгоритм:
сначала парсер забирает себе ссылки пагинации
запоминает их в бд
Далее начинает проходиться по каждой из ссылок пагинатора - собирает все ссылки на тумбы, всю доступную инфу по ним, заодно помечает текущую ссылку пагинатора "пройденой"
далее проходится по всем сссылкам тумб - собирает финальную информацию
Все.
Вопросы
1) может я выдумываю свой велосипед, а умные люди уже все это сделали за меня ? (если "да" - то дайте ссылку - буду благодарен)
2) запуск парсера я повесил на крон - правильно ? (если нет - то скажите правильный подход)