Нужен надежный парсер сайтов на php?

Нужно вытащить некую информацию с сайтов нежвижимости, сайтов несколько, страниц парсить придется очень много.

Нужно гибкий, простой и выдерживающий большие нагрузки парсер, то есть хочется готовое решение в виде фреймворка на php.
  • Вопрос задан
  • 3184 просмотра
Пригласить эксперта
Ответы на вопрос 6
DmitriyEntelis
@DmitriyEntelis
Думаю за деньги
Не рекомендую использовать phpQuery и иже с с ними.
В нескольких проектах парсили ~400 000 страниц ежедневно.
Пробовали Simplehtml и phpQuery. С одной стороны да, запросы пишутся легко и удобно.
С другой стороны среднее время обработки страницы весом 500kb было несколько секунд, основное время уходило на постройку DOM.
6 потоков нагружали мощный Xeon под 100% + жрало память адски.

Самописное решение через regexp обрабатывало ту же страницу за ~30ms, что бы загрузить процессор понадобилось ~40 потоков.
Ответ написан
Комментировать
выбирайте тут, а так допиливать и решать проблемы бана вам все равно придется почти вручную
Ответ написан
Комментировать
alexdspb
@alexdspb
phpQuery позволяет легко парсить сайты посредством DOM. По принципу работы похож на jQuery.
Ответ написан
Комментировать
@Novomirskoy
Я посоветую один из компонентов Zend Framework 2 - Zend\Dom\Query.
Ответ написан
Комментировать
Taraflex
@Taraflex
Ищу работу. Контакты в профиле.
Быстрее всего регулярками, или смотрите в сторону других языков. Например D (в стандартной библиотеке уже есть поддержка curl).
Ответ написан
Комментировать
@mov2608911
Я бы порекомендовал вам воспользоваться услугами проверенной компании, как я в своё время, был раньше интернет-магазин игрушек, чтоб не нанимать человека для постинга я заказал парсер на parsing.by сделали всё относительно быстро, а самое главное - как мне нужно! Поэтому рекомендую если что)))
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы