я первый раз)
вопрос, нужно ли парсить по категориям товаров или взять ,например, " сапоги" , спарсить все, что есть. резиновые,замшевые и т.д. и после уже на сайте добавлять их вручную в соответствующие категории?
Приведите пример сайта - так вам помогут гораздо быстрее
Но, если я вас правильно понял, то нет, нет смысла сначала собрать "сапоги", а потом "платья". Проще одним проходом: платья - к платьям, сапоги - сразу к сапогам.
Если у вас есть деление сапогов на замшевые и резиновые - сразу и сапоги разделять на два списка "сапоги замшевые" и "сапоги резиновые".
Вы ведь, по сути, определенными правилами разбираете по кусочкам html/json
Но, чтобы помочь вам, нужно посмотреть ссылочку.
Сергей Шахов, первый шаг сделан. теперь вам задать вопрос.
он может звучать как "есть сайт ххх (это место вы успешно прошли). мне нужно найти на нем ххх" (это довольно нужная информация - те, кто решат помочь, должны знать, в чем помогать)
вот пример кода:
хххх
ххх
хх
(тут желательно идет ваш пример кода, который не работает / работает, но не так как вам бы хотелось)
дополнительно рекомендую вам почитать про библиотеки:
requests
beautifulsoup4
re ( регулярные выражения в парсинге часто спасают и работают очень быстро)
основная идея:
1/ через requests получить html/js код странички
2/ через bs4 или регулярки спарсить данные из п.1
3/ как-то их сохранить (в эксель или базу данных)
Спарсить все, что есть и после уже добавлять в категории.
Что бы сделать быстрый парсер, нужно разделить операции получения данных (отправка запроса на сервер, парсинг контента и т.д.) от операций реификации (представления в виде модели). Они имеют разную стоимость машинного времени. При параллельном исполнении удается сократить много времени.
В вашем случае нет необходимости вручную добавлять в категории. При парсинге полученного контента, получите категорию и прочие данные, сохраните в БД. Выборка после окончания парсинга.