floydman-89
@floydman-89
В постоянном изучении...

Парсинг контента на Wordpress — каким средством это можно реализовать?

Дано: несколько сайтов, рубрики которых необходимо спарсить себе.
Проблема: на этих сайтах нет общего URL, под которым находятся записи + RSS отсутствует.

Пример: нужно спарсить новости, список которых находится на site.ru/news/, а урл детальной новости имеет вид site.ru/nazvanie-novosti/. То есть отсутствует общий признак в URL


Плагины aftparser парсер умер - не работает с версией php >= 7, wpgrabber либо по html либо по RSS источнику работает - ни в том ни в другом случае не получается настроить.

Посоветуйте решение?
  • Вопрос задан
  • 11738 просмотров
Пригласить эксперта
Ответы на вопрос 6
@LegoG
Для Wordpress есть парсер plink.top, платный, но работает именно так, как вам надо
Ответ написан
Комментировать
san_jorich
@san_jorich
Творческий кодер
Вы имеете доступ к админкам ?
Ответ написан
@uroot
Я знаю платные плагины для WP: Sсrареs - тут ты вызуально указываешь где текст, где картинка, а где заголовок. Плагину побоку откуда парсить контент.
Ответ написан
Комментировать
azerphoenix
@azerphoenix
Java Software Engineer
Пример: нужно спарсить новости, список которых находится на site.ru/news/, а урл детальной новости имеет вид site.ru/nazvanie-novosti/. То есть отсутствует общий признак в URL

Да, действительно и мне не удалось при помощи WPGrabber парсить подобные страницы.
А почему бы не написать свой парсер на рнр или на любом другом языке и поставить на СRON? Грубо говоря, из /news получить список ссылок, пройтись по списку и спарсить контент. А дальше сформировать из него sql файл и скормить ВП (или как вариант спарсить в таблицу xls, а дальше плагином WP All Import импортировать на сайт + создать CRON задачу на импорт таблицы плагином WP All Import).

Если нужно спарсить разово контент, то очень хорошая программа Visual Web Ripper. Визуально выбираешь что парсить, указываешь пагинацию и т.д., а дальше программа парсит и формирует таблицу. Остается при помощи WP All Import импортировать.
Ответ написан
Комментировать
@qwerscom
wpgrabber qwew.ru/wpgrabber/2525-wpgrabber-4-9-8.html
Ответ написан
Комментировать
@usten
Такая же ситуация, мне нужно спарсить один сайт, но что бы парсился ежедневно, а идеале каждый час.
пробовал wpgrabber, но не получается и хостинг ругается на данный плагин, что он якобы высокую нагрузку делает и пустые запросы.
Нужно спарсить данный сайт кто звонил нужно парсить название и описание, если каким-то образом можно настроить, что бы парсить и комментарии, то вообще отлично. Буду рад помощи, готов заплатить до 2000 руб.
Так же есть еще 3 сайта есть, которые так же нужно парить ежедневно.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы