Какой парсер самый быстрый?

Question

hrvasiliy @hrvasiliy

Какой парсер самый быстрый?

Планируется получать информацию с сайтов CURL'ом или PhantomJS'ом (если у вас имеется предложение лучше, буду рад услышать его) и ее требуется чем-то обрабатывать, регулярные выражения не рассматриваются. Пользовался раньше PHP Simple HTML DOM, но эта библиотека неспособна обрабатывать огромные страницы, да и не уверен в ее скорости. Не могли бы вы посоветовать какую-нибудь мощную и легкую библиотеку для обработки полученной информации?

Вопрос задан более трёх лет назад
3774 просмотра

10 комментариев

Подписаться 6 Оценить 10 комментариев

Igor Belikov @igorbelikov

А почему отказываетесь от регулярных выражений? Ведь с помощью них можно очень гибко и быстро доставать нужные элементы.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

Потому что имеются трудности в их понимании.

Написано более трёх лет назад
Igor Belikov @igorbelikov

hrvasiliy: К сожалению это не должно быть причиной, из-за которой нужно отказываться от способа. Там нет ничего сложного, уделите несколько часов и вы поймете от чего отказались.

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега PHP

Igor Belka: потому что html нельзя парсить регулярными выражениями - stackoverflow.com/questions/1732348/regex-match-op...

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

Igor Belka: Скажите, то есть по вашему, самый быстрый способ обработки полученной информации - это регулярные выражения?

Написано более трёх лет назад
Павел Тетюев @jetexe

hrvasiliy: Дак любая библиотека будет дольше и тяжелее чем регулярки. И библиотеку тоже надо будет "понять"

Написано более трёх лет назад
Igor Belikov @igorbelikov

hrvasiliy: Думаю, что быстрее не будет, так как чтобы использовать какой конструктор типа Simple HTML DOM, то он для начала должен получить весь документ, далее обработать его в объект и только потом вы сможете по нему ходить.

Так как я подразумеваю, что автору необходимо будет получать именно определенные участки, в которых хранятся нужные ему данные, то этот способ будет оптимальным.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

Igor Belka: Хорошо, ваш вариант обработки информации я понял. Спасибо! Скажите, а что по поводу методов получения информации? CURL и PhantomJS хорошие? Может чего еще посоветуете?

Написано более трёх лет назад
Igor Belikov @igorbelikov

hrvasiliy: Советую CURL по причине большой скорость и доступности. Если требуется быстрая обработка нескольких проектов одновременно, то используйте многопоточность CURLа.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

Igor Belka: Еще раз спасибо, но CURL не умеет обрабатывать страницы сгенерированные JS.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 4

6 комментариев

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 237 просмотров
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 880 просмотров
3

ответа
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 565 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 200 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 450 просмотров
1

ответ
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3733 просмотра
12

ответов
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 247 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 465 просмотров
3

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 2 подписчика
- 25 мая
- 513 просмотров
6

ответов
Показать ещё Загружается…

А почему отказываетесь от регулярных выражений? Ведь с помощью них можно очень гибко и быстро доставать нужные элементы.
Потому что имеются трудности в их понимании.
hrvasiliy: К сожалению это не должно быть причиной, из-за которой нужно отказываться от способа. Там нет ничего сложного, уделите несколько часов и вы поймете от чего отказались.
Igor Belka: потому что html нельзя парсить регулярными выражениями - stackoverflow.com/questions/1732348/regex-match-op...
Igor Belka: Скажите, то есть по вашему, самый быстрый способ обработки полученной информации - это регулярные выражения?
hrvasiliy: Дак любая библиотека будет дольше и тяжелее чем регулярки. И библиотеку тоже надо будет "понять"
hrvasiliy: Думаю, что быстрее не будет, так как чтобы использовать какой конструктор типа Simple HTML DOM, то он для начала должен получить весь документ, далее обработать его в объект и только потом вы сможете по нему ходить.

Так как я подразумеваю, что автору необходимо будет получать именно определенные участки, в которых хранятся нужные ему данные, то этот способ будет оптимальным.
Igor Belka: Хорошо, ваш вариант обработки информации я понял. Спасибо! Скажите, а что по поводу методов получения информации? CURL и PhantomJS хорошие? Может чего еще посоветуете?
hrvasiliy: Советую CURL по причине большой скорость и доступности. Если требуется быстрая обработка нескольких проектов одновременно, то используйте многопоточность CURLа.
Igor Belka: Еще раз спасибо, но CURL не умеет обрабатывать страницы сгенерированные JS.

Answer 1 · 2015-06-05 16:12:52

Задача стоит - быстро спарсить html страницу. Додумываю условие - страницу определённую, контент которой известен и более менее не меняется. В данном случае ответ очевиден - принимать html как текст и работать с ним как с текстом. IndefOf, substr и т.д. Это самый быстрый вариант.
За ним по производительности идёт regexp, он более удобен для написания, но не более правильный, чем ковыряться в строке.
Самым правильным идёт использование библиотеки. Потери в производительности здесь колоссалльные, но зато правильно и безопасно.

Answer 2 · 2015-06-05 16:16:37

Использование CURLа и его многопоточности + разбор регулярным выражением нужных частей.
Большой список программных парсеров.

Answer 3 · 2015-06-05 16:07:47

Самый производительный "HTML-парсер", вероятнее всего, это XSLT. Например, Xalan или Saxon
Дополнительно:
habrahabr.ru/post/203004
en.wikipedia.org/wiki/Category:XSLT_processors

P.S.
Но если у вас будет много страниц небольшого размера, то парсер не играет никакой роли, т.к. задержка сети будет много выше.

Answer 4 · 2015-06-05 19:58:05

Muhammad @muhammad_97

PHP-разработчик

https://github.com/imangazaliev/didom

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-06-05 21:49:25

beduin01 @beduin01

forum.dlang.org/thread/wmnchdvldefdguldpfzu@forum....

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2015-06-06 05:12:04

Если размер обрабатываемых страниц не измеряется десятками или сотнями мегабайт и доступная память не сильно ограничена, то штатного DOMDocument, использующего нативную libxml, вполне должно хватить.

регулярные выражения не рассматриваются

Говоря о выборке из XML/HTML всегда в первую очередь вспоминайте об XPath. В PHP в сочетании с DOMDocument пригодится DOMXPath.

Какой парсер самый быстрый?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт