Как реализовать парсинг цен с сайтов для определенных продуктов?
Как реализовать парсинг цен с сайтов для определенных продуктов, первое что приходит в голову это писать регулярки для каждого магазина, но это как то не красиво, использовать библиотеки для парсинга, или есть более элегантный способ?
Вариант для PHP. Занимался парсингом цен, сначала парсил регулярками. Потом нашёл способ поэлегантнее. На мой взгляд самый лучший способ - XPath. Грузим страницу curl'ом или file_get_contents, добавляем перед ней <?xml encoding="UTF-8">, загружаем всё это в DOM объект, потом спокойно парсим с помощью запросов=)
Каким образом грузим необходимую страницу? Указать ручную не вариант. Чтобы автоматические нашел страницу товара и парсил цены. Товаров может быть много. И еще нужно парсить из нескольких магазинов.
Можно подумать над аналогичным вариантом, как сделано в гугл вебмастере - маркер.
То есть загружается страницы в специальный веб-интерфейс, администратор указывает, какая часть данных на страницы - что означает. Потом система автоматически подтягивает несколько других страниц-аналогичных-шаблонов для уточнение информации. Это позволит достаточно быстро устанавливать парсинг для любого интернет-магазина. Правда это не легко, возможно нужно использовать нейронные сети. Или поискать открытые аналоги.