Как реализовать парсинг цен с сайтов для определенных продуктов?

Как реализовать парсинг цен с сайтов для определенных продуктов, первое что приходит в голову это писать регулярки для каждого магазина, но это как то не красиво, использовать библиотеки для парсинга, или есть более элегантный способ?
  • Вопрос задан
  • 5037 просмотров
Пригласить эксперта
Ответы на вопрос 4
@DmitryDorofeev
Вариант для PHP. Занимался парсингом цен, сначала парсил регулярками. Потом нашёл способ поэлегантнее. На мой взгляд самый лучший способ - XPath. Грузим страницу curl'ом  или file_get_contents, добавляем перед ней <?xml encoding="UTF-8">, загружаем всё это в DOM объект, потом спокойно парсим с помощью запросов=)
Ответ написан
@zvorygin
Я в свое время использовал jsoup.org - парсер на яве, можно выдирать данные по css-селекторам - очень удобно оказалось.
Ответ написан
Комментировать
Praeses
@Praeses
Можно подумать над аналогичным вариантом, как сделано в гугл вебмастере - маркер.
То есть загружается страницы в специальный веб-интерфейс, администратор указывает, какая часть данных на страницы - что означает. Потом система автоматически подтягивает несколько других страниц-аналогичных-шаблонов для уточнение информации. Это позволит достаточно быстро устанавливать парсинг для любого интернет-магазина. Правда это не легко, возможно нужно использовать нейронные сети. Или поискать открытые аналоги.
Ответ написан
Комментировать
@ZloiZmei
Можно парсить Яндекс.Маркет, если магазины там представлены.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы