@Whatevermarever

Нужна помощь по парсингу вордпресс сайта?

Есть сайт, нужно спарсить фото и тайтл из каждого поста, с первой по последней страницы. Какие фреймворки понадобятся? Можно обойтись только jsoup? Есть ли ресурсы, где можно найти примерный алгоритм прохождения по статьям и страницам?
  • Вопрос задан
  • 61 просмотр
Решения вопроса 1
azerphoenix
@azerphoenix Куратор тега Java
Java Software Engineer
Здравствуйте!
1) нужна ли авторизация на сайте для доступа к контенту? Почитайте, как авторизоваться на сайте используя jsoup.
2) Не важно, какой CMS вы парсите.. ВП или что-то еще
3) Jsoup не умеет работать с динамическим контентом (например, ajax пагинация, подгрузка скроллом и т.д.). Обычно, если нет динамического контента, то этого достаточно.
4) Если все-таки есть динамический контент - смотрите в сторону Selenium + браузер (FF || Chrome и др.)
5)
Есть ли ресурсы, где можно найти примерный алгоритм прохождения по статьям и страницам?

Ресурсов полно, достаточно поискать. А общий принцип прохождения по статьям и страницам - по факту это просто циклы.
6) Можно спарсить данные и без ЯП. Например, используя программу Visual Web Ripper.

Примерный план парсинга.
- определится с типом контента. (см. пункт 3 и 4)
- определится с авторизацией (и если нужна авторизация, то реализовать авторизацию)
- определиться с точкой входа. Например, страница категории (рубрики) ВП.
- определится с типом пагинации. Обычно, в ВП это /page/1,2,3,4 и т.д. Тут зависит от вашей цели. Вы можете просто инкрементировать значение страницы до макс. значения (посмотрите какая самая последняя страница) или же например, можно инкрементировать до того момента, пока на странице не будут характерных записям блоков. (тут все зависит от верстки).
- Далее циклом - do {} while () или while() {} собираете информацию (ссылки) об имеющихся записях и добавляете в какой-нибудь List.
- После чего опять-таки циклом пробегаетесь по списку и открываете урлы и парсите контент самой страницы. Вы также можете подключить Apache POI, чтобы после парсинга экспортировать данные в xlsx.
Обычно, для удобства я создаю объект (тайтл, текст, ссылка на картинку и т.д.). Далее добавляешь все объекты в некий List. А дальше экспортируешь этот лист в xls.
Вот, тут неплохой сниппет для экспорта List в Excel.
https://www.jeejava.com/generic-way-of-reading-exc...

Если вам нужно импортировать информацию на сайт ВП, то используйте плагин WP ALL IMPORT. Созданный вами xlsx файлы отлично подойдет
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы