Здравствуйте,
Есть php скрипт который запускает через консоль phantomjs, необходимо парсить страницы раз в несколько минут. Страниц ~500, на каждую страницу по 2 секунды, как лучше всего разбить скрипт?
Есть идея:
1) Разделить на несколько партий и запускать последовательно, по времени тоже самое
2) Разделить на партии, но запускать сразу несколько заданий.
3) Использовать какой-нибудь обработчик, заносить Url в БД/память/файл, и по 1 одному обрабатывать
Без конкретики косаемо всего, можно только угадать то, что вы хотите. Хотите, делайте одно задание и выполняйте его, либо делайте несколько, зависит от реализации скрипта, возможностей планировщика и ваших возможностей.
А какая нужна конкретика?
Мне нужно парсить выдачу гугла, раз в пол часа. 15 различных городов, несколько различных запросов, 5 первых страниц. ~500 страниц получается. Сейчас запускаю это все одним скриптом, каждая страница обрабатывается 1.5-2 секунды = ~12 минутам, мне интересно как лучше реализовать, чтобы не нагружался сервер, чтобы можно было увеличить количество обрабатываемых страниц до 5000.
Алексей Алюшенко: если ваша задача - не нагружать сервер, то нужно скрипт не пилить, а оптимизировать. Если вы должны кому-то $100, неважно ведь будете вы их отдавать долларовыми бумажками или одной - результат один.