открытые html-парсеры?

Question

bit @bit

HTML

открытые html-парсеры?

Для распарсивания html использую libxml2. В общем устраивает, но хочется что-нибудь побыстрее.
Смотрел некоторые опенсорсные поисковики (Xapian, Dataparksearch) — у них свои собственные парсеры. Разбираться с их исходниками и адаптировать под свои нужды — еще не созрел, хотя уже близко к тому.
Не знает ли кто другие открытые парсеры, более легкие и шустрые, чем libxml2? Мне ни Гугл, ни Яндекс помочь не смогли. Возможно не так спрашивал.

Вопрос задан более трёх лет назад
2996 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Skillbox

Веб-вёрстка 3.0

3 месяца

Далее
OTUS

HTML/CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 7

2 комментария

1 комментарий

4 комментария

bit @bit Автор вопроса

Вот бы такую-же на C

Написано более трёх лет назад
pwlnw @pwlnw

Интересно, а каковы должны быть возможности сетевой инфраструктуры, чтобы потребовалось писать программу на C?
Опрашиваемые сайты не загибаются?

Написано более трёх лет назад
bit @bit Автор вопроса

Ну зачем же сайты то ломать, карму себе портить :)
На один сайт, точнее даже, на один IP открывается один поток. Так что с сайта в единицу времени берется не более одной страницы. Это конечно медленный путь получения информации, но лучше медленно, чем тебя везде банить начнут.

Написано более трёх лет назад
pwlnw @pwlnw

мысль в том, что если вы достаточно медленно опрашиваете сайты, то и производительности любого скриптового языка должно вполне хватать. так что и данная библиотека не слишком плоха. да и вообще, можно выбирать парсер с точки зрения удобства прежде всего.

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как изменить цвет текста в выводимой таблице (php)?
- нет подписчиков
- 2 часа назад
- 58 просмотров
1

ответ
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 100 просмотров
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 107 просмотров
0

ответов
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 222 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 258 просмотров
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 202 просмотра
0

ответов
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 191 просмотр
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 130 просмотров
2

ответа
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 152 просмотра
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 159 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

Frontend Developer (React + Node.js)

Alfabet Service

от 1 000 до 2 000 $

Frontend разработчик (ReactJS, TypeScript)

Arkline

от 120 000 до 200 000 ₽

Answer 1 · 2010-10-22 17:09:58

Почему бы не воспользоваться регулярными выражениями, если нужно всего лишь вытащить куски страницы? Получение заголовка — /(\w+)<\/title>/gi, сбор ссылок — что-то типа /<a[^>]*href="([^>"]*)"[^>]*>(\w+)<\/a>/gi (правда, эта регулярка не работает, если в тексте ссылки есть еще теги). Посидеть, поломать мозг над ними… и наверное, заработает.

Answer 2 · 2010-10-22 17:08:22

t0os @t0os

сбор всех ссылок со страницы в виде

а это разве не одной регуляркой делается?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2010-10-22 16:48:56

Быстрее чем если писать парсер заточенный под конкретную цель самостоятельно вряд ли выйдет.
У Вас какая-то очень специфическая и сложная задача, что вы используете libxml? Может конечно это у меня руки кривые, но сколько не пытался им парсить сложные XML, каждый раз понимал, что ручками и быстрее и надежней:)

Answer 4 · 2010-10-22 17:18:56

Silbers @Silbers

возможно вас заинтересует simplehtmldom.sourceforge.net

Ответ написан более трёх лет назад

4 комментария

Answer 5 · 2010-10-22 20:21:04

phpquery обладает большим функционалом но не совсем то по скорости. Лучше приводить HTML в XML и обрабатывать при помощи XSLT. Скорость работы думаю вполне удовлетворит.

Answer 6 · 2010-10-23 01:17:06

Bonch @Bonch

Можете посмотреть в сторону Mechanize.

Ответ написан более трёх лет назад

1 комментарий

Answer 7 · 2014-02-04 17:47:54

Евгений Софонов @sofcom

DevOps & IT Produce & Digital marketing

Тоже интересуют парсеры. Вроде эти могут подойти - Grab, Scrapy или PHP HTML DOM парсер

Ответ написан более трёх лет назад

Комментировать

открытые html-парсеры?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт