Как писать большие парсеры каталогов, сайтов на php?

Question

madc0de @madc0de

Как писать большие парсеры каталогов, сайтов на php?

Добрый день!

Пишу парсеры каталогов xls, csv, yml по ссылкам перехожу парсю информацию с сайта. Парсеры разделяют характеристики, создают опции, сохраняют картинки и тд.

Сначала все делала в одном скрипте с сохранением в бд, теперь разделяю - сначала по каталогу, потом с сайта все сохраняю в json и только после этого запускаю отдельный скрипт сохранения в бд из json.

Вопрос в следующем:
Хотел бы спросить ваши методы и архитектуру работы парсеров, разборщиков каталогов и yml.
Как бороться с сохранением памяти и буфера, мб есть простые методы многопоточного парсера и нужны ли они вообще? Может кто-то разделяет на этапы загрузки и после заврешения скрипта 1 этапа запускается второй.

Вообщем хотелось бы какой-то новой информации в этой области, кто что посоветует. Не особо люблю библиотеки с гитхаба где все готово. Хотелось бы самому все писать и разбираться в каждой строчке кода.

Сейчас стоит задача спарсить yml с 6к товарами, при этом заходить по ссылке на их сайт и от туда сохранять описание и ссылки на картинки. Как можно ускорить добавление и снизить нагрузку ?

Вопрос задан более трёх лет назад
247 просмотров

8 комментариев

Подписаться 1 Средний 8 комментариев

sim3x @sim3x

Перейти на питон/скраппи

Написано более трёх лет назад
Moses Fender @mosesfender

немного оффтоп: интересно, а как быть с динамическим контентом, который ajax'ой подгружается?

Написано более трёх лет назад
madc0de @madc0de Автор вопроса

Moses Fender, с такой проблемой не встречался, но как правило можно попробовать самому обратится по ajax запросу и передать параметры нужные. Их в разработчике браузера глянуть)

Написано более трёх лет назад
DanKud @DanKud

Moses Fender, отправить такой же запрос, как отправляется в AJAX, и получить те же данные. В крайнем случае, если нужно, чтобы непосредственно выполнялись JS-скрипты, то использовать веб-драйверы (Selenium, Puppeteer, PhantomJS)

Написано более трёх лет назад
Moses Fender @mosesfender

madc0de, вооот! Поэтому делать парсер на PHP - идея не шибко удачная. Он хорош для статичного HTML-текста. Гораздо удачнее мне видится парсинг при помощи JavaScript и даже jQuery, который прямо-таки заточен под это. Конечно, и при таком подходе не без подводных граблей.

Написано более трёх лет назад
madc0de @madc0de Автор вопроса

Moses Fender, я делаю на php и довольно давно. Меня все утраивает, только хотелось бы получить больше инфы для улучшения навыков

Написано более трёх лет назад
Moses Fender @mosesfender

Ну, я собственно свои пять копеек вставил на вопрос
Хотел бы спросить ваши методы и архитектуру работы парсеров,

Я сделал оболочку на дельфях, там хоть потоками, хоть чем скачивается документ, создаётся браузер, в нём запускается, потом парсится средствами JavaScript.

Написано более трёх лет назад
madc0de @madc0de Автор вопроса

Moses Fender, ну на php я могу фантомjs использовать и просто сохранять готовый html с генерированным конетом через аякс. И потом распарсить так же через php)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Почему в PHP унитарная операция от плюса к минусу работает а обратно нет?
- 1 подписчик
- 15 часов назад
- 70 просмотров
1

ответ
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 167 просмотров
0

ответов
PHP

Простой
Как скомбинировать массивы, чтобы получить все варианты сочетаний их элементов?
- 1 подписчик
- 23 сент.
- 208 просмотров
3

ответа
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 166 просмотров
0

ответов
PHP

+1 ещё

Простой
Можно ли писать функции в текст?
- 1 подписчик
- 19 сент.
- 416 просмотров
2

ответа
PHP

Средний
Joomla 5 rest api — как создать материал с сохранением html элемента?
- 1 подписчик
- 18 сент.
- 97 просмотров
1

ответ
PHP

+1 ещё

Простой
Как в Битрикс с помощью PHP скрывать одну или несколько характеристик если они пустые?
- 1 подписчик
- 18 сент.
- 180 просмотров
2

ответа
PHP

Средний
Подключние к базе данных из класса — насколько правильно?
- 2 подписчика
- 14 сент.
- 360 просмотров
2

ответа
PHP

Простой
Почему не запускается session_start() на сервере от REG.RU?
- 1 подписчик
- 09 сент.
- 190 просмотров
3

ответа
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 175 просмотров
3

ответа
Показать ещё Загружается…

PHP разработчик

BGStaff • Москва

До 300 000 ₽

PHP разработчик

IT-hunter

До 6 500 $

Программист PHP/Laravel/Vue.js

What'sOnPic

До 200 000 ₽

немного оффтоп: интересно, а как быть с динамическим контентом, который ajax'ой подгружается?
Moses Fender, с такой проблемой не встречался, но как правило можно попробовать самому обратится по ajax запросу и передать параметры нужные. Их в разработчике браузера глянуть)
Moses Fender, отправить такой же запрос, как отправляется в AJAX, и получить те же данные. В крайнем случае, если нужно, чтобы непосредственно выполнялись JS-скрипты, то использовать веб-драйверы (Selenium, Puppeteer, PhantomJS)
madc0de, вооот! Поэтому делать парсер на PHP - идея не шибко удачная. Он хорош для статичного HTML-текста. Гораздо удачнее мне видится парсинг при помощи JavaScript и даже jQuery, который прямо-таки заточен под это. Конечно, и при таком подходе не без подводных граблей.
Moses Fender, я делаю на php и довольно давно. Меня все утраивает, только хотелось бы получить больше инфы для улучшения навыков
Ну, я собственно свои пять копеек вставил на вопрос
Хотел бы спросить ваши методы и архитектуру работы парсеров,

Я сделал оболочку на дельфях, там хоть потоками, хоть чем скачивается документ, создаётся браузер, в нём запускается, потом парсится средствами JavaScript.
Moses Fender, ну на php я могу фантомjs использовать и просто сохранять готовый html с генерированным конетом через аякс. И потом распарсить так же через php)

Answer 1 · 2019-04-04 13:59:41

этому велосипеду уже тонна лет...
1. по возможности производить парсинг на отдельном хосте
2. консольный парсер избавлен от некоторых ограничений, например времени выполнения
3. парсер - парсит, модель - хранит, а я - красавчег :)
4. по возможности парсить данные не с фронта - использовать sitemap, прайсы, ajax контроллеры возвращающие json

Как писать большие парсеры каталогов, сайтов на php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт