Задача: периодически копирую текст и картинки с разных сайтов и заношу их в Эксель, хочу этот процесс отдать машине. Контент, который я копирую, публичный, без всякой авторизации и тд. Контент может быть на сайте как с кривой версткой (без закрывающих тегов), так и с нормальной версткой. Контент может быть статичным и динамичным (подгружаться через js). Один из примеров задачи: на странице с пагинацией зайти на страницы с первой по пятую пагинацию и собрать заголовки, картинки и цены товаров.
Решение, которое хотелось бы увидеть: какая-то программа с UI или надстройка к Экселю или еще какой-то вариант, в котором я мог бы выставить настройки парсинга: указать страницы для парсинга, указать элементы для парсинга через css селекторы или xpath (или подобным способом), указать настройки форматирования, например, на выходе текст должен быть без тегов, после заголовков h2 ставить перенос строки, а название скачанной картинки брать из заголовка h2 и тд, далее запустить процесс и получить готовый контент в текстовом виде или сразу в Экселе.
Вопрос: подскажите какие есть варианты, чтобы можно было подобные задачи решить? Можно и платные, если не слишком дорогие. Знаю верстку и изучал js, поэтому если есть варианты как-то через js, то тоже рассматриваю.
я как немного разбирающийся в парсинге(читайте мой последний коммент тут) скажу так: универсальный и настраеваемый, да можно, до определенной степени. и это не даст гарантии, что завтра дом вообще переделают. такие решения есть, работают так себе, настраивать их сложнее чем гибко адаптировать парсер под код. энтерпрайз-парсеры,как я, работают и затачиваются под определенные сайты. всегда есть нюансы.
я могу подсказать как, но услуги свои не предоставляю)
а теперь разберемся
". Контент может быть на сайте как с кривой версткой (без закрывающих тегов), так и с нормальной версткой." - такого не бывает. вы всегда получите от веб-сервера валидный хтмл, иначе браузер такую страницу и не покажет. в чем смысл их?) их дом браузер не обработает.
"Контент может быть статичным и динамичным (подгружаться через js). Один из примеров задачи: на странице с пагинацией зайти на страницы с первой по пятую пагинацию и собрать заголовки, картинки и цены товаров."
это обычные запросы JS. он их только делает, откройте devtools(вкладка network xhr) и увидите их. А бывает еще всякий SSR.
вердикт
Вы написали тз не на том сайте. Обратитесь к скраперам)
зы...если будут вопросы по делу - отвечу с радостью.