Как парсить большое количество данных?

Question

kappka @kappka

Как парсить большое количество данных?

Здравствуйте. Пытаюсь использовать PHP HTML DOM Parser для парсинга множества страниц: изначально около сотни, получаю через file_get_html, нахожу нужное и формирую ассоциативный массив в котором хранится сотня ссылок, далее снова через file_get_html пробегаюсь по массиву из этих ссылок и получаю еще сотню страниц, в каждой из которых нахожу по ~50 нужных мне строк.
В результате всё валится и требуются минуты, чтобы всё нормально получить.

Как быть в таких ситуациях, что использовать?

Вопрос задан более трёх лет назад
1559 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

13 комментариев

Oleg Shevelev @mantyr

21 век... регулярки не то что бы совсем плохи, но поддерживать их и раньше было сложно, а сейчас данных и задач так много что просто не вариант. Проблема топикпастера в том что PHP плохо под такие задачи рассчитан, что бы использовать именно его надо много всего дописать, додумать, дорешать, дофантазировать и так далее... но классически задача решается так:
1. научитесь максимально быстро и просто получать данные с одной страницы
2. научитесь максимально прозрачно для себя и для приложения скачивать те страницы что вам нужны
3. научитесь организовывать предыдущие два пункта так что бы и нагрузка была распределённой и проблема парсинга одной страницы не убивала весь движок целиком
Парсеры штука интересная:)

Написано более трёх лет назад
DevMan @DevMan

регулярки - не самый удобный и лучший способ парсинга html.

Написано более трёх лет назад
DevMan @DevMan

Oleg Shevelev: php уже давно нормально подходит для парсинга и не нужно ничего из "много всего дописать, додумать, дорешать, дофантазировать и так далее".
то что топикстартер использует однопоточный допотопный парсер - проблема топикстартера, а не php.

Написано более трёх лет назад
kappka @kappka Автор вопроса

Спасибо. Решил использовать многопоточный cURL и вместо dom parser-а регулярки, всё получилось.

Написано более трёх лет назад
Oleg Shevelev @mantyr

DevMan: вы серьёзно? То что на нём можно написать что угодно ещё не значит что это не боль и страдания по сравнению с более подходящими решениями:) Вот несколько причин почему PHP это боль:
1. у PHP бездарное отношение к документации, в действительности почти никто не полагается на реальный код скрывающийся за функцией и "гуглит" решения в интернете и только в крайних случаях заглядывает в Си и смотрит что же там за входные/выходные данные могут быть
2. не возможность по нормальному обрабатывать ошибки, точнее возможность-то всегда была, кроме случаев обработки фаталов (с ними как было всё плохо так и остаётся), но тонны кода написаны абы как в этом понимании
3. не возможность нормального использования ресурсов, вы никогда не сможете гарантировать что ваше приложение медленно, но отработает, а не умрёт из-за нехватки памяти, переполнения стека, фантомных ошибок, сегментации и прочих особенностей которые могут всплывать в любом месте. Доступные функции для управления GB не сильно-то помогают, даже если вы будете сбрасывать GB после почти каждой операции - это вас особо не спасёт, разве что сделает код медленнее
4. медленная производительность при практически аналогичной сложности разработки например на Golang
5. всё совсем плохо если вы хотите написать многопоточный сервер на PHP, для этого не даром было написанно несколько дополнительных расширений на Си, что бы хоть как-то сгладить проблемы. Но в сухом остатке, если где-то хотя бы одна ваша функция упадёт в паник - весь сервер умрёт и вам нужно позаботиться об этом как-то дополнительно, а значит задействовать крон либо специальный софт который будет следить за сервером и перезапускать его. В любом случае - перезапуск по таким пустякам это плохая идея
6. множество накладных расходов буквально везде, когда у вас небольшой сайт - это нормально, когда у вас ферма серверов с разнообразными задачами то это не смешно и не интересно
7. если вам захочется модифицировать стандартную библиотеку, то использовать вы сможете её далеко не всегда и не везде, не всякому клиенту это подходит, да и не удобно
8. компетенция тех кто вам скорее всего будет пробовать помочь если у вас какая-то техническая проблема.

Написано более трёх лет назад
Oleg Shevelev @mantyr

Конечно PHP7 очень крут по сравнению с PHP4 и PHP5, но концептуально ограничен.

Написано более трёх лет назад
DevMan @DevMan

Oleg Shevelev: много слов ни о чем.
продолжайте в этом же духе.

Написано более трёх лет назад
Oleg Shevelev @mantyr

DevMan: я рад что для вас PHP идеален:) И мне вас жаль что вы считаете этот список проблем не существующим:)

Написано более трёх лет назад
DevMan @DevMan

Oleg Shevelev: свои фантазии оставьте при себе: php - далеко не единственный язык, которым я пользуюсь.

Написано более трёх лет назад
Oleg Shevelev @mantyr

DevMan: В чём же по вашему мои фантазии? Относительно вас или относительно PHP?

Написано более трёх лет назад
DevMan @DevMan

Oleg Shevelev: относительно "я рад что для вас PHP идеален"

Написано более трёх лет назад
Oleg Shevelev @mantyr

DevMan: это был сарказм.

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Oleg Shevelev
5. всё совсем плохо если вы хотите написать многопоточный сервер на PHP, для этого не даром было написанно несколько дополнительных расширений на Си, что бы хоть как-то сгладить проблемы. Но в сухом остатке, если где-то хотя бы одна ваша функция упадёт в паник - весь сервер умрёт и вам нужно позаботиться об этом как-то дополнительно, а значит задействовать крон либо специальный софт который будет следить за сервером и перезапускать его. В любом случае - перезапуск по таким пустякам это плохая идея
эээ. а зачем писать многопоточный сервер на php? php несколько для другого предназначен.

4. медленная производительность при практически аналогичной сложности разработки например на Golang

99% функционала упирается не в быстродействие языка. Оно упирается в data storage и политики консистентности. И вот тот кусочек логики(если он есть в проекте вообще) который критичен по быстродействию - действительно можно писать на чем угодно.

Но для всего остального я лично подхожу с точки зрения простоты поиска и замещения людей.
В мск PHP 11 300 резюме, java 6027, python 1576, ruby 638, Go 332.
Ответ очевиден. Какой бы Go не был распрекрасный, мне нафиг не нужен в проекте код, на который я потом задолбаюсь искать людей.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 21 час назад
- 177 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- вчера
- 168 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 182 просмотра
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 129 просмотров
1

ответ
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 90 просмотров
0

ответов
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 197 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 227 просмотров
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 260 просмотров
3

ответа
PHP

+1 ещё

Средний
Что входит в отладку скрипта на PHP?
- 1 подписчик
- 02 окт.
- 259 просмотров
1

ответ
PHP

+1 ещё

Средний
Возможно ли профилирование на PHP без xhprof и xdebug?
- 1 подписчик
- 02 окт.
- 169 просмотров
2

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

Answer 1 · 2015-08-09 21:30:12

file_get_html? really?
откройте для себя параллельную загрузку документов,
а затем локально парсите их в фоне как вам угодно.

Answer 2 · 2015-08-09 21:40:36

В дополнение к остальным ораторам: вместо всяких дом-парсеров попробуйте использовать обычный preg_match_all и регулярки.
Ускорение будет в 10-100+ раз вероятней всего)

Answer 3 · 2015-08-09 21:05:49

index0h @index0h

PHP, Golang. https://github.com/index0h

set_time_limit(0);
ini_set('memory_limit', '512M');

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2015-08-09 22:40:45

Создайте очередь задач ввиде простой таблицы в БД.
Напишите один скрипт который будет брать из таблицы адрес, скачивать, класть скаченное в папку и завершаться.
Напишите другой скрипт который скаченное будет разбирать, выделять ссылки и класть ссылки в таблицу для первого скрипта.
Запускайте каждый скрипт с помощью крона и небольшого bash скрипта N раз в минуту.

Как парсить большое количество данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт