@kapai69

Как организовать логику работы парсера?

Есть к примеру таблица.
d3e94e9174148e20126f4b1f1f0dd90d.png
Задача состоит в том чтобы парсить страницы, небольшими частями, например по 5 штук за раз.
Как проще всего пометить уже отпарсеные урлы, чтобы выбрать следующий блок?
Они должны парсится бесконечно, тоесть отпарсились все, начались с начала, в день по нескольку раз.
  • Вопрос задан
  • 2724 просмотра
Пригласить эксперта
Ответы на вопрос 3
@IceJOKER
Web/Android developer
Добавляете еще один столбец - status.
Выбираете 5 значений у которых статус 0, если таковых нет, то обновляем у всех status на 0 и начинаем заново, а если есть таковые , то парсите и записываете в status 1.
И конечно настраиваете крон, чтоб тот запускал скрипт через каждые 5 минут или как вам удобно
Ответ написан
@entermix
Если нужно парсить каждый URL только N раз за определенное время, то добавить поле "created" с UNIX Timestamp (или парсить с той даты, что уже есть) и проверять сколько прошло времени с последней проверки, соответственно обновлять дату, а крон ставить, например каждую минуту, тогда все будет в актуальном состоянии на указанное время )
Ответ написан
Quattro_Vias
@Quattro_Vias
Искусство простоты - это сложная головоломка
Я один не понимаю, а чем цикл плох ? (сделай таймер после каждых 5 - если нужно именно так)
Время работы то же, результат тот же ... и закинь в крон

Зависит от проекта и какую информацию получаешь + для чего.
Например сделать БД с id и ссылкой сайтов которые нужно парсить. (По id и будет цикл).

"Они должны парсится бесконечно, тоесть отпарсились все, начались с начала, в день по нескольку раз."
Так и будет: Список ссылок с id + задача в кроне. Изи)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы