Как правильно парсить большие объёмы данных?

В общем то с парсингом проблем особых не было никогда, а тут столкнулся с тем, что на сайте несколько десятков тысяч записей, а ещё мне надо переходить по ссылкам в этих записях и доставать данные уже с внутренних страниц, да ещё что бы при каждом запуске скрипта данные не заменялись, а только добавлялись новые. В принципе, проблем в самом написании не вижу, думал делать следующим образом: сначала собираю все нужные мне ссылки в массив, а потом уже прохожусь по ним и забираю эти данные и сохраняю в xml. Проблема заключается в том, что записей столько много, что очень долго приходится ждать, пока парсер пройдётся по всем страницам и соберёт ссылки для дальнейшей обработки, а что будет дальше я вообще представить боюсь. Думаю, может есть какие-то способы/хитрости/трюки для таких вот ситуаций?
  • Вопрос задан
  • 291 просмотр
Пригласить эксперта
Ответы на вопрос 2
Jump
@Jump
Системный администратор со стажем.
Проблема заключается в том, что записей столько много, что очень долго приходится ждать, пока парсер пройдётся по всем страницам и соберёт ссылки для дальнейшей обработки
Запускайте в несколько потоков.
Это единственный способ уменьшить время сбора.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы