Как своровать шины? (Проверить, что на странице есть fetch().json())?
Потребовалось мне тут для демо-задачи получить правдоподобно выглядящую базу некоторых товаров (шины для авто). Я так полагаю, что в мире есть огромное множество сайтов по продаже шин. Наверняка, некоторые из них (пусть не все, пусть даже лишь 1%) при выставлении опции в меню поиска (например, геометрия шины) - отправляет запрос на сервер и получает JSON с товарами. Вот я бы хотел найти подобное (а там бы уже придумал, как все или почти все шины утянуть).
Пробовал гуглить просто "tires filetype:json" - нет ничего.
Пока что рабочая версия такая - написать простенький скрейпер, который бы отправлял гуглу запрос типа "buy tires bridgestone", получал бы огромный список сайтов, и проверял бы каждый из них, находя "интересные" (которые я уже ручками бы проверил).
Интересные для меня - это те, в которых есть JavaScript код с fetch, который обрабатывается как JSON. (Возможно это код, который запрашивает у бэкенда шины по параметрам). Я бы не хотел проверять вручную *все* страницы, на которых есть любой JS :-)
Через питоновский beautiful soup можно распарсить HTML, но как можно еще и распарсить JavaScript (чтобы убедиться, что там есть fetch().json())? Есть что-то лучше-удобнее чем просто искать подстроки fetch и json?
Да, я понимаю, что можно обычный скрейпинг сделать (попробовать найти все страницы с шинами и каждую обработать), но вот думаю, что может быть для этого задачи нам проще именно найти сайт, который бы сразу в JSON фронтенду отдавал.
Но в целом, любые варианты интересны (поэтому и тэги такие широкие), если в итоге может получится найти сайт, на котором "раздают шины" в JSON :-)
и не будет. Базу в виде дампа sql или csv искать надо.
Так как на бакенде json не лежит.
Шины три основных параметра : радиус(диаметр), ширина, высота.
Еще Сезонность, индекс скорости/нагрузки, тип техники (легковые/грузовые/сельхоз), производитель
Допом можно (шип и другие плюшки)
Выше поля для поиска по каталогу
Ну и остаются еще поля собственно название и картинка.
Гугли "база шин архив" . На первой же странице готовый каталог предлагают купить менее чем за 4 тысячи
Для моего дьявольского плана не требуется, чтобы на сервере лежал .json (это уж я на дурака попробовал - вдруг бы хотя бы где-то в мире лежал бы, задача бы решилась в одну минуту). Меня вполне устраивает обычный сайт с базой данных на бэкенде, который по запросу с фронта, с формочки (дай мне все bridgestone, R16) отдает результаты (шины) в формате JSON (Достаточно очевидный и популярный формат для этой задачи).
Ярослав, вот только основные магазины автозапчастей были написаны до модных динамических фронтов (на вуе или т п). Постом или гетом идет перезагрузка в основном страницы.
Сразу готовый хтмл вместо рендинга на фронте