Какие существуют подходы для парсинга больших данных?

Question

GregIv @GregIv

Какие существуют подходы для парсинга больших данных?

Какие существуют подходы для парсинга больших данных?
Добрый день!
В настройках php да и сервера есть множество настроек, которые не позволяют выполниться скрипту парсинга больших данных за один раз.
Какие существуют способы обойти это?

Я знаю способ с редиректом.
Выполняется парсинг n-го кол-ва строк, после этого происходит редирект на эту же страницу и парсятся следующие n строк.

Какие еще варианты могут быть?
Также интересно для консольных скриптов….

Вопрос задан более трёх лет назад
685 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- вчера
- 194 просмотра
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 190 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 422 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 366 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 403 просмотра
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 246 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 206 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 331 просмотр
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 294 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 152 просмотра
1

ответ
Показать ещё Загружается…

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

PHP-разработчик (Symfony)

еКапуста

от 250 000 до 450 000 ₽

Answer 1 · 2017-08-07 06:06:23

обычно если запрос блокирующий, то на него накладывают разные ограничения, чтоб сервак хоть как-то отвечал, и не было длительных блокировок, лучше не пытаться обходить эти ограничения (тк они достаточно разумные)
ПХП - это скриптовый язык, не вполне для анализа больших данных, используте его для формирования обработки задач в других продуктах, например apache spark

Answer 2 · 2017-08-07 09:11:24

Поможет очередь задач (task queue).

Надо принимать задание, ставить его в очередь и отдавать ответ типа «принято. номер задания ZZZ» – это выполняется практически мгновенно. Затем нужно узнавать, «готово ли задание ZZZ?» – например, ajax'ом раз в пару секунд опрашивать сервер.

Выполняются задания в один или несколько потоков, на этом или другом сервере, «рабочим» процессом. Запускается рабочий процесс не под веб-сервером, а из командной строки и не имеет ограничений на время выполнения. Процесс либо висит постоянно и ждёт поступления задач, либо запускается по крону раз в N минут (и выполняется в случае если нет другого запущенного процесса с предыдущего раза).

Например, во фреймворке Laravel (и облегченной его версии Lumen) очень хорошая реализация очереди задач из коробки.

Answer 3 · 2017-08-07 08:09:52

Обычно большие объёмы парсятся посредством map/reduce. На PHP лучше всего использовать консольные скрипты и сразу отводить побольше памяти. Алгоритмы парсинга очень зависят от формата файлов. Например csv парсить очень легко. Обычно такие файлы парсят сразу в несколько потоков.
Разного рода xml парсят либо через simple xml либо через domparser. Иногда парсят с помощью ручного построения дерева. Т.е. Читают файл посимвольно и формируют дерево тегов. Этот подход работает, когда файлы очень большие, а глубина вложенности небольшая и формат предсказуем.
Разного рода xls парсятся через Phpexcel, он даже картинки умеет доставать.
Плюс парсинги делаются через механизм очередей. Например загружается файл на сервер, ставится задача распарсить файл, далее файл парсится через консольный скрипт. В особо извращенных случаях, вроде xls файлов с адскими макросами внутри, доходит до инстанцирования OLE объектов на отдельной виндовой машине и выдёргивания данных через vbs.

Какие существуют подходы для парсинга больших данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт