@averlock

Каким образом лучше парсить данные с разных сайтов?

Здраствуй all.

Суть вопроса в следующем. Есть несколько вебсайтов (разметка у каждого из них разная, API нет), с которых необходимо по запросу (обычный поисковый запрос) вытаскивать картинки и немного текстовой информациии выводить в виде таблицы для сравнения у себя. Каким образом это лучше реализовать? Возможно есть готовое решение, чтобы не изобретать велосипед.
  • Вопрос задан
  • 2600 просмотров
Пригласить эксперта
Ответы на вопрос 4
DmitriyEntelis
@DmitriyEntelis
Думаю за деньги
Не рекомендую использовать phpQuery и иже с с ними.
В нескольких проектах парсили ~400 000 страниц ежедневно.
Пробовали Simplehtml и phpQuery. С одной стороны да, запросы пишутся легко и удобно.
С другой стороны среднее время обработки страницы весом 500kb было несколько секунд, основное время уходило на постройку DOM.
6 потоков нагружали мощный Xeon под 100% + жрало память адски.

Самописное решение через regexp обрабатывало ту же страницу за ~30ms, что бы загрузить процессор понадобилось ~40 потоков.

Нужен надежный парсер сайтов на php?
Ответ написан
@zugo
Для парсинга с помощью PHP (у вас в тегах PHP) есть библиотека phpQuery (порт jQuery на PHP). Если не привязаны к PHP, то можно найти и решения получше.
Ответ написан
@maxyc_webber
Web-программист
если на пхп есть например синатра )
Ответ написан
Комментировать
index0h
@index0h
PHP, Golang. https://github.com/index0h
Многое зависит от того, как устроены страницы сайтов, которые вы собираетесь распарсить. Если куча логики завязана на JS с подгрузкой картинок - дешевле и быстрее делать с помощью PhantomJS / CasperJS.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
18 апр. 2024, в 21:56
2000 руб./за проект
18 апр. 2024, в 21:00
150 руб./за проект