Как лучше парсить сайты?

Question

romaaa32 @romaaa32

Как лучше парсить сайты?

1) Использовать CURL, или есть что-то получше?
2) После получения страницы сайта (например через CURL) сразу брать с нее нужные данные или записывать в файл страницу, а потом парсить его. В плане экономии оперативной памяти различия есть?
3) Использовать регулярки или например PHP Simple HTML DOM Parser? И если последнее то какие + его использования? Данных с каждой страницы парсить не много и скорость выполнения особо не нужна.. Потребление оперативной памяти интнресует.

Вопрос задан более трёх лет назад
884 просмотра

3 комментария

Подписаться 2 Простой 3 комментария

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 112 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 227 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 213 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 116 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 285 просмотров
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 331 просмотр
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 289 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 275 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 275 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 179 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

так у тебя выбор то один курл и все
Регулярки лучше не использовать, потом устанешь поддерживать.
Я бы советовал использовать библиотеки: advanced-html-dom, simple-html-dom-parser
edward_freedom, огня ... требует жопа твоя!

Answer 1 · 2018-10-09 22:33:27

1) Я использую Guzzle, там внутри тот же курл, но в удобной обертке.
2) Я вначале сохраняю ссылки в файл, потом по ним прохожу, если страниц немного и они не тяжелые - не сохраняю.
3) Регулярки использую только в случаях, когда простыми методами библиотек данные не могу достать, например на сайтах с табличной версткой без классов и идентификаторов, использую библиотеку phpquery, она побыстрее указанной вами.

Answer 2 · 2018-10-10 03:35:18

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

nightmare (headless browser library)

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2020-02-23 16:04:18

Я просто подписана на сервис, который собирает мне данные любой сложности с любых источников. Тем, кому часто нужно парсить данные, советую. Хотя разовое использование там вроде тоже есть. https://sssoydoff.wixsite.com/scraper

Как лучше парсить сайты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт