Как можно регулярно получать данные с Copart, IAAI и Encar?
Хочу собрать информацию о лотах с аукционов Copart и IAAI (США), а также с корейской площадки Encar - VIN, фото, цены, пробег, состояние, дата продажи и т.д.
Задача - обновлять данные каждый день и хранить у себя в базе.
Интересует, какие есть стабильные способы:
- использовать их API (если есть доступ),
- парсить страницы вручную,
- или, может быть, есть готовые сервисы, которые уже собирают эту информацию?
Буду признателен за любые советы, примеры реализации (Python, PHP, Node.js) и подходы к автоматизации (cron, proxies, очереди и т.д.).
Мы решали такую же задачу - Copart, IAAI и Encar каждый день обновляются, и самостоятельно поддерживать парсер оказалось сложно: токены меняются, IP блокируются, структура страниц постоянно обновляется.
Не существует никакого универсльного ответа. Каждый сайт индивидуален и его парсинг - это всегда отдельная самостоятельная задача. Особенно для тех сайтов, которые парсят интенсивно и которые заинтересованы в том, чтобы активно препятствовать этому.
Где-то надо бороться с рейтлимитами, где-то с блокировкой IP, где-то с капчей, иногда сайты активно меняют свою структуру страниц или форматы запросов. Даже сайты, которые не сопротивляются парсингу вообще, требуют внимания. Сделать в режиме "запустил и работает" получается примерно никогда. Нужно постоянно следить и оперативно исправлять всё, что ломается.