Как ускорить работу парсера?

Question

Максим Осадчий @waspmax1

Как ускорить работу парсера?

Все привет! Пишу парсер магазина, но что-то он слишком долго как по мне работает.
Алгоритм парсинга следующий:
Количество страниц категорий мне известно, поэтому прохожусь по ним через for, все ссылки на товары записываю в массив, далее прохожусь по нему через foreach, получаю нужные данные - картинки сохраняю в папку, характеристики пишу в csv.
Скрипт запускаю открытием страницы на локальном сервере, т.е весь код пишу в index.
Такая логика обрабатывает 1500 страниц за ~350 секунд. А что, если сайт на 30 000 страниц, как в таком случае быть? Подозреваю, что работу можно разбить на несколько итераций, например сначала сохранить массив ссылок, отдельно по нему проходиться, но не хочу особо костылить, поэтому спрашиваю вашего совета.
В работе использую phpquery.

Вопрос задан более трёх лет назад
1257 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

3 комментария

Максим Осадчий @waspmax1 Автор вопроса

Спасибо за ответ, но такой нюанс, при парсинге, у меня страница в браузере весь период работы скрипта находиться в процессе загрузки, я боюсь что на больших количествах какой-то timeout у браузера точно вылетит и не даст мне завершить работу. Скрипт можно как-то запустить фоново, консольно?

Написано более трёх лет назад
Егор @egormmm

Можно и консольно. Но если запускать консольно, и также возникнет какая-то ошибка (например интернет отпадет) - то что будет с результатами вашего процесса ?

Поэтому придумали такую штуку под названием "Очередь".

Написано более трёх лет назад
Exploding @Exploding

Максим Осадчий, не надо ничего консольно-фоново запускать (точнее не в этом вопрос вообще), у вас просто напросто отсутствует контроль выполнения "итерации" (хотя в вашем случае без кавычек). Вы "выпускаете пулю" и не удостоверившись и не дождавшись подтверждения, что она попала в цель - отмечаете ее "пораженной" переходя к следующей цели.

Я бы делал так (возможно и вам что-то будет полезным из этого):
- во-первых, посмотрел есть ли sitemap и если да - проверил его качество (сравнил с индексом ПС), если все ок - список урлов товаров готов и не надо парсить никакие категории для этого. Если нет - в моем случае (поскольку лень было в парсер дописывать граббинг урлов) запустил бы xenu и получил список урлов товаров.
- в произвольной БД создал таблицу со структурой типа: id, url, status, comments где основным по смыслу является status например enum('wait', 'parsing', 'done', 'error')
- запускал бы экземпляры парсера обрабатывая первый урл со статусом 'wait' из таблицы и ... ну думаю дальше все понятно....

При такой схеме мы можем контролировать (перезапускать если надо) парсинг каждого урла, также опираясь на кол-во одновременных записей со статусом 'parsing' можем контролировать кол-во потоков ну и по завершении формировать отчет какой-то и что еще в больную голову взбредет...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 270 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 14 нояб.
- 277 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 209 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 185 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 303 просмотра
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 281 просмотр
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 149 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 321 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 374 просмотра
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 302 просмотра
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2017-10-13 12:06:39

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Используйте несколько потоков и асинхронную обработку.
curl_multi_init() - в помощь!

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2017-10-13 12:25:38

~4-5 товаров / сек - это ахренеть как довольно быстро. Видимо мало картинок или вы миниатюры сохраняете только... В принципе основное время уходит на скачивание полноразмерных изображений, а все остальное так... пыль))
Я как-то помню качественно парсил качественный магазин, в котором на каждом товаре ~3-6 фоток в приличном разрешении, при ~15Мбитах получалось в среднем 2-4 сек/товар, т.к. получил html, разобрал и распихал данные по запросам, и скачиваю большие фотки, получил фотки, и каждую програмно:
- уникализировал
- налепил ватермарки (вообще нагло конечно, но так клиент захотел:))
- сгенерил миниатюры
- ну и плюс время на сохранение на диск (hdd 7200rpm)
Так что вы со своими 350 секундами радуйтесь! Наверно... т.к. скорее всего вы не настолько качественно парсите...

Как ускорить работу парсера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт