Как оптимизировать процесс парсинга данных с веб-сайтов?

Question

tmWorker @tmWorker

Как оптимизировать процесс парсинга данных с веб-сайтов?

У меня есть несколько сайтов с которых нужно постоянно парсить данные.

Например, у меня есть 20 сайтов, когда последний сайт обработан парсером, нужно начинать с начала. Вопрос в том, как наилучшим образом сделать это в PHP? Потому что я новичок в этом и опыта в этом никакого...

Я боюсь ситуации, когда сервер будет перегружен, или скрипт парсинга (процесс) будет случайно остановлен ... Как наилучшим образом справиться с этими ситуациями?

Любые абстрактные советы найдутся?

Вопрос задан более трёх лет назад
421 просмотр

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 291 просмотр
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 338 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 369 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 230 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 196 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 315 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 287 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 332 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 382 просмотра
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

examplee, Как советуете запускать процесс парсинга и контролировать его? CRON или ещё что нибудь

Answer 1 · 2018-01-17 22:03:31

sim3x @sim3x

https://scrapy.org/

Ответ написан более трёх лет назад

5 комментариев

Answer 2 · 2018-01-18 12:31:13

Берешь любую балалайку для очереди вроде beanstalkd или gearman, пишешь какой-то главный скрипт, который запускает парсинг с входной точки (первой страницы или страниц), ссылки извлеченные из нее добавляются в эту же очередь и где-то сохраняются для блэклистинга (чтобы не парсились дважды). Примерно так работает scrapy

Answer 3 · 2018-01-22 15:41:07

по своему опыту могу сказать что если сайты небольшие то на пыхе еще можно делать, но для больших сайтов нужно что-то другое, лично я выбрал для такого дела python+scrapy

Answer 4 · 2018-01-23 00:37:29

Ну тут все просто, делаете очередь в базе из 20 записей, каждый раз когда переходите к новому сайту, запрашиваете одну запись отсортированную по дате последнего обновления, парсите сайт, по окончании апдейтите дату обновления для записи, и забираете следующую запись.
Ну и соответственно если сервер перегрузят или остановят парсер, при перезапуске он всегда возьмет следующий сайт.

Как оптимизировать процесс парсинга данных с веб-сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт