На чем лучше написать парсер, который должен работать на сервере круглосуточно?
Здравствуйте!
Задача такая: на сервере должен висеть скрипт, который будет отправлять запросы к api и сохранять полученную информацию в базу данных. Скрипт должен работать постоянно, чтобы в базе всегда была максимально актуальная информация. Система CentOS, Debian или Ubuntu. Нужна возможность либо запустить несколько парсеров, либо какая-то многопоточность, потому что данных десятки миллионов, а в перспективе сотни. Так же, желательно как-то его контроллировать: запускать, останавливать и чтобы он сам перезапускался в случае нештатных ситуаций. Предпочтительные языки: php, java.
Что посоветуете?
Есть классная штука для управления демонами - supervisord.org . Используется вполне элементарно - пишете консольное приложение (демона) на любом удобном языке (например php), далее указываете supervisord что хотите запустить 10 или 100 или сколько надо экземпляров этого скрипта, он их запускает, следит чтобы они не отваливались (перезапускает в случае чего). Так же есть возможность остановить / перезапустить все эти процессы разом. Еще у супервизорда есть веб-интерфейс где можно удобно смотреть за состоянием демонов, плюс управлять ими. Мы используем его для своих демонов уже несколько лет и вполне довольны.
Еще я бы сразу посоветовал поставить к нему этот плагин lxyu.github.io/supervisor-quick а то в стандартной реализации start/stop/restart выполняется слишком медленно. Вообще если понадобится помощь по supervisord, можете стучаться в скайп.