Быстрый парсер кодов ответа сервера для 1 млн сайтов. Пока что выбрал PHP?
Доброго времени суток. Вопрос такой, собираюсь сделать простой, но быстрый парсер заголовков ответов серверов и парсинга главных страниц примерно для 1 миллиона сайтов. Пока что выбор пал на PHP, так как для него есть удобная библиотека CURL (для парсинга главных страниц). Но смущает то, что скрипт PHP довольно быстро упирается в ограничения nginx. Придется продолжать парсинг в несколько итераций и создавать дополнительную нагрузку на базу. Да и не предназначен PHP для таких долгих задач по своей сути.
В идеале выполнять парсинг каждый день. Как думаете, стоит попробовать что-то еще, или выбор в сторону PHP правильный?
Если до сих пор непонятно, парсер миллиона сайтов и nginx - это вещи никак между собой не связанные. Это как спросить "я тут банку майонеза нашел, но в нее огурцы не помещаются".
Что в целом говорит нам о том, что "мильён сайтов" - это влажные эротические мечты, вообще никак не связанные с реальностью.
FanatPHP, ну как не связаны, когда делал онлайн сервис по парсингу ссылок, все упиралось в ограничения ngix. Но сделал, через Cron переодически запускает, все работает, хоть и не очень быстро. Не уточнил, что парсер будет в виде онлайн сервиса с web интерфейсом.