@madc0de

Как писать большие парсеры каталогов, сайтов на php?

Добрый день!

Пишу парсеры каталогов xls, csv, yml по ссылкам перехожу парсю информацию с сайта. Парсеры разделяют характеристики, создают опции, сохраняют картинки и тд.

Сначала все делала в одном скрипте с сохранением в бд, теперь разделяю - сначала по каталогу, потом с сайта все сохраняю в json и только после этого запускаю отдельный скрипт сохранения в бд из json.

Вопрос в следующем:
Хотел бы спросить ваши методы и архитектуру работы парсеров, разборщиков каталогов и yml.
Как бороться с сохранением памяти и буфера, мб есть простые методы многопоточного парсера и нужны ли они вообще? Может кто-то разделяет на этапы загрузки и после заврешения скрипта 1 этапа запускается второй.

Вообщем хотелось бы какой-то новой информации в этой области, кто что посоветует. Не особо люблю библиотеки с гитхаба где все готово. Хотелось бы самому все писать и разбираться в каждой строчке кода.

Сейчас стоит задача спарсить yml с 6к товарами, при этом заходить по ссылке на их сайт и от туда сохранять описание и ссылки на картинки. Как можно ускорить добавление и снизить нагрузку ?
  • Вопрос задан
  • 244 просмотра
Пригласить эксперта
Ответы на вопрос 1
SilenceOfWinter
@SilenceOfWinter Куратор тега PHP
та еще зажигалка...
этому велосипеду уже тонна лет...
1. по возможности производить парсинг на отдельном хосте
2. консольный парсер избавлен от некоторых ограничений, например времени выполнения
3. парсер - парсит, модель - хранит, а я - красавчег :)
4. по возможности парсить данные не с фронта - использовать sitemap, прайсы, ajax контроллеры возвращающие json
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы