Задать вопрос
@sonics
html,css,angular, php, joomla, opencart, bootstrap

Источники для написания парсера?

Здравствуйте.
Подскажите источник где можно прочесть про специфику написания парсера.
На данный момент есть цель научиться парсить каталоги товаров и хотелось бы это делать самостоятельно.
Но если вы знаете какие-то грамотные, реализованные решения, я бы с удовольствием их рассмотрел тоже.
Спасибо.
  • Вопрос задан
  • 144 просмотра
Подписаться 1 Оценить Комментировать
Решения вопроса 1
DarkRaven
@DarkRaven
разработка программного обеспечения
TLDR - для opencard пример парсера https://parsemx.com

Я никогда не задавался поиском на подобную тему, так как считаю это занятием, не особо того стоящим.
В вашем случае, вы желаете разобрать входящий слабоструктурированный/структурированный текст в набор определенных сущностей.
Перво-наперво, вам нужно выявить, что за основной формат входного текста (html, xml, json, текст просто).
Дальше, в зависимости от формата, вы выбираете стратегию. К примеру, если это html, то его можно почистить (tidy) и попробовать привести к XML. Зачастую это срабатывает нормально. Если нет - нужно разбирать конкретные случаи.
После того, как вы получили XML, вам нужно выделить минимальрный повторяющийся элемент, описывающий продукт. И просто пройтись по нему через XPath.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
nepster-web
@nepster-web
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы