Задать вопрос
  • Как сделать аффилированные Линки на продукты всегда рабочими?

    wppanda5
    @wppanda5 Куратор тега WordPress
    WordPress Mедведь
    Если и есть, то вряд-ли он в открытом доступе лежит, это обычно коммерческие решения.
    Однако у тог же Amazon есть возможность поиска через API. Например по ключевым словам https://docs.aws.amazon.com/en_pv/AWSECommerceServ...
    Дальше уже дело техники получить теги записи, передать их в API, выдернуть из ответа ссылку/ссылки.
    Ответ написан
    4 комментария
  • Как узнать трафик конкурентов?

    Grinvind
    @Grinvind
    Помогаю увеличивать трафик с поисковых систем
    Берёте точную частотность ("[!ключ]") и умножаете на ctr (примерные данные можно найти в интернете, ~20-30% для первого места).
    В гугле та же аналогия.
    А общий трафик на сайт можно узнать через similarweb.
    Ответ написан
    3 комментария
  • Что влияет на высокие позиции в поисковике?

    Stalker_RED
    @Stalker_RED
    Ты можешь допустить абсолютно любые ошибки. Можешь повторить чьи-то чужие, и изобрести свои.
    Ответ написан
    Комментировать
  • Нужна помощь по парсингу вордпресс сайта?

    azerphoenix
    @azerphoenix Куратор тега Java
    Java Software Engineer
    Здравствуйте!
    1) нужна ли авторизация на сайте для доступа к контенту? Почитайте, как авторизоваться на сайте используя jsoup.
    2) Не важно, какой CMS вы парсите.. ВП или что-то еще
    3) Jsoup не умеет работать с динамическим контентом (например, ajax пагинация, подгрузка скроллом и т.д.). Обычно, если нет динамического контента, то этого достаточно.
    4) Если все-таки есть динамический контент - смотрите в сторону Selenium + браузер (FF || Chrome и др.)
    5)
    Есть ли ресурсы, где можно найти примерный алгоритм прохождения по статьям и страницам?

    Ресурсов полно, достаточно поискать. А общий принцип прохождения по статьям и страницам - по факту это просто циклы.
    6) Можно спарсить данные и без ЯП. Например, используя программу Visual Web Ripper.

    Примерный план парсинга.
    - определится с типом контента. (см. пункт 3 и 4)
    - определится с авторизацией (и если нужна авторизация, то реализовать авторизацию)
    - определиться с точкой входа. Например, страница категории (рубрики) ВП.
    - определится с типом пагинации. Обычно, в ВП это /page/1,2,3,4 и т.д. Тут зависит от вашей цели. Вы можете просто инкрементировать значение страницы до макс. значения (посмотрите какая самая последняя страница) или же например, можно инкрементировать до того момента, пока на странице не будут характерных записям блоков. (тут все зависит от верстки).
    - Далее циклом - do {} while () или while() {} собираете информацию (ссылки) об имеющихся записях и добавляете в какой-нибудь List.
    - После чего опять-таки циклом пробегаетесь по списку и открываете урлы и парсите контент самой страницы. Вы также можете подключить Apache POI, чтобы после парсинга экспортировать данные в xlsx.
    Обычно, для удобства я создаю объект (тайтл, текст, ссылка на картинку и т.д.). Далее добавляешь все объекты в некий List. А дальше экспортируешь этот лист в xls.
    Вот, тут неплохой сниппет для экспорта List в Excel.
    https://www.jeejava.com/generic-way-of-reading-exc...

    Если вам нужно импортировать информацию на сайт ВП, то используйте плагин WP ALL IMPORT. Созданный вами xlsx файлы отлично подойдет
    Ответ написан
    1 комментарий