@artem20152000

Как спарсить информацию с нескольких страниц сразу php simple html dom?

Привет! Проблема вот в чем, я использую php simple html dom parser для парсинга страниц. Но вот возникла проблема... Мне нужно парсить ссылки с одной страницы, а потом из этих ссылок парсить другое инфо. Как это сделать? А то не получается в цикле файлы лоадить...
  • Вопрос задан
  • 357 просмотров
Пригласить эксперта
Ответы на вопрос 3
bboytiwst
@bboytiwst
1. Получаете все ссылки
2. Считаете количество ссылок
3. Поднимаете N-ное количество воркеров равное количеству ссылок
4. Каждому воркеру присваиваете определённую URL, с которой он должен работать
5. Контролируете процесс ограничивая вложенность и количество воркеров.

Использовать можно механизм очередей, gearman, workerkman (https://github.com/walkor/workerman)
Ответ написан
@ambrous
Единственное добавил бы ко всему вышесказанному - в некоторых случаях вместо php simple html dom лучше использовать регулярки, особенно, если нужно просто ссылки со страницы взять. Чем меньше циклов, тем лучше. И рекурсия тут тоже особо не нужна.
Ответ написан
Комментировать
@maximilan
Тоже в дополнение, мне в плане парсинга понравилась библиотека PHPQuery. Позволяет парсить страницы, предоставляя методы для работы похожие на методы jQuery. По мне получилась достаточно удобно.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы