@romaaa32

Как лучше парсить сайты?

1) Использовать CURL, или есть что-то получше?
2) После получения страницы сайта (например через CURL) сразу брать с нее нужные данные или записывать в файл страницу, а потом парсить его. В плане экономии оперативной памяти различия есть?
3) Использовать регулярки или например PHP Simple HTML DOM Parser? И если последнее то какие + его использования? Данных с каждой страницы парсить не много и скорость выполнения особо не нужна.. Потребление оперативной памяти интнресует.
  • Вопрос задан
  • 815 просмотров
Пригласить эксперта
Ответы на вопрос 3
1) Я использую Guzzle, там внутри тот же курл, но в удобной обертке.
2) Я вначале сохраняю ссылки в файл, потом по ним прохожу, если страниц немного и они не тяжелые - не сохраняю.
3) Регулярки использую только в случаях, когда простыми методами библиотек данные не могу достать, например на сайтах с табличной версткой без классов и идентификаторов, использую библиотеку phpquery, она побыстрее указанной вами.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
nightmare (headless browser library)
Ответ написан
Комментировать
@AleksandraSoy
Я просто подписана на сервис, который собирает мне данные любой сложности с любых источников. Тем, кому часто нужно парсить данные, советую. Хотя разовое использование там вроде тоже есть. https://sssoydoff.wixsite.com/scraper
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы