Как правильно парсить большие объёмы данных?

Question

Андрей @ntzch

PHP

Как правильно парсить большие объёмы данных?

В общем то с парсингом проблем особых не было никогда, а тут столкнулся с тем, что на сайте несколько десятков тысяч записей, а ещё мне надо переходить по ссылкам в этих записях и доставать данные уже с внутренних страниц, да ещё что бы при каждом запуске скрипта данные не заменялись, а только добавлялись новые. В принципе, проблем в самом написании не вижу, думал делать следующим образом: сначала собираю все нужные мне ссылки в массив, а потом уже прохожусь по ним и забираю эти данные и сохраняю в xml. Проблема заключается в том, что записей столько много, что очень долго приходится ждать, пока парсер пройдётся по всем страницам и соберёт ссылки для дальнейшей обработки, а что будет дальше я вообще представить боюсь. Думаю, может есть какие-то способы/хитрости/трюки для таких вот ситуаций?

Вопрос задан более трёх лет назад
292 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 91 просмотр
0

ответов
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 263 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 311 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 276 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 263 просмотра
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 261 просмотр
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 170 просмотров
1

ответ
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 233 просмотра
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 277 просмотров
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 280 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2015-06-06 22:07:12

Проблема заключается в том, что записей столько много, что очень долго приходится ждать, пока парсер пройдётся по всем страницам и соберёт ссылки для дальнейшей обработки

Запускайте в несколько потоков.
Это единственный способ уменьшить время сбора.

Answer 2 · 2015-06-06 19:36:04

sim3x @sim3x

Есть scrapy.org

Ответ написан более трёх лет назад

3 комментария

Как правильно парсить большие объёмы данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт