Здравствуйте. Недавно появилась идея написать парсер для своего проекта. Этот парсер должен работать очень быстро и обрабатывать за один запрос десятки тысяч страниц одного сайта. Я хотел бы его написать на PHP. Скажите, кто знает, если я создам такой скрипт. Поймет ли сайт, что его парсят? Сможет ли он отследить мой IP?
Информация будет сохраняться в массив, а потом передаваться пользователю.
обрабатывать за один запрос десятки тысяч страниц одного сайта
Ну если у вас достаточно денег, чтобы купить десятки тысяч прокси и минимум пару-тройку топовых физических серверов... то почему нет? Ах да, есть совсем маленький нюанс в виде разработки уникального ПО способного работать с такими объемами, но право слово, это будет герунда на фоне трат выше.
Евдоким, предположим, что вы будете делать с одного IP-адреса не чаще 1-го запроса в секунду, тогда чтобы спарсить 1000 страниц в течении секунды вам понадобится 1000 прокси соответственно. Количество прокси можно сократить в 100 раз, но тогда и времени нужно будет в 100 раз больше. Обычная математика, считайте сами.
Надим Закиров, Возможно, мой случай является индивидуальным. Я бы хотел парсить не код, а страницу на наличие слов. В таком случае парсить будет быстрее?
Надим Закиров, я понял что вы хотите сказать. Один вопрос дополнительно, если будет столько запросов идти на один сайт. Могут ли владельцы сайта узнать и запретить вход на сайт по моему IP?
Из опыта скажу что, при однопоточном парсинге приходится делать тайм-ауты от 0,3 до 1 секунды. Соответственно, посчитайте врем затраты времени и аренды серверов/ip/адресов.