открытые html-парсеры?

Для распарсивания html использую libxml2. В общем устраивает, но хочется что-нибудь побыстрее.
Смотрел некоторые опенсорсные поисковики (Xapian, Dataparksearch) — у них свои собственные парсеры. Разбираться с их исходниками и адаптировать под свои нужды — еще не созрел, хотя уже близко к тому.
Не знает ли кто другие открытые парсеры, более легкие и шустрые, чем libxml2? Мне ни Гугл, ни Яндекс помочь не смогли. Возможно не так спрашивал.
  • Вопрос задан
  • 2994 просмотра
Пригласить эксперта
Ответы на вопрос 7
ertaquo
@ertaquo
Почему бы не воспользоваться регулярными выражениями, если нужно всего лишь вытащить куски страницы? Получение заголовка — /(\w+)<\/title>/gi, сбор ссылок — что-то типа /<a[^>]*href="([^>"]*)"[^>]*>(\w+)<\/a>/gi (правда, эта регулярка не работает, если в тексте ссылки есть еще теги). Посидеть, поломать мозг над ними… и наверное, заработает.
Ответ написан
@t0os
сбор всех ссылок со страницы в виде


а это разве не одной регуляркой делается?
Ответ написан
mihavxc
@mihavxc
Быстрее чем если писать парсер заточенный под конкретную цель самостоятельно вряд ли выйдет.
У Вас какая-то очень специфическая и сложная задача, что вы используете libxml? Может конечно это у меня руки кривые, но сколько не пытался им парсить сложные XML, каждый раз понимал, что ручками и быстрее и надежней:)
Ответ написан
@Silbers
возможно вас заинтересует simplehtmldom.sourceforge.net
Ответ написан
@Thomas
phpquery обладает большим функционалом но не совсем то по скорости. Лучше приводить HTML в XML и обрабатывать при помощи XSLT. Скорость работы думаю вполне удовлетворит.
Ответ написан
Комментировать
Bonch
@Bonch
Можете посмотреть в сторону Mechanize.
Ответ написан
sofcom
@sofcom
DevOps & IT Produce & Digital marketing
Тоже интересуют парсеры. Вроде эти могут подойти - Grab, Scrapy или PHP HTML DOM парсер
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы