Ответы пользователя по тегу Парсинг
  • Как правильно настроить Key Collector?

    vpetrov
    @vpetrov
    частный SEO-специалист
    Яндекс больше не позволяет парсить запросы из Вордстат. Для этого можно использовать API XMLRiver. Платный, разумеется.
    Запросы можно взять из Букварикс, он сейчас абсолютно бесплатен.
    Частотность парсится через Директ - там ничего не надо, просто яндексовые учётки с привязанным телефоном (одним на всех). Кабинет не нужен.
    Выдача парсится тоже по XML - либо с помощью xmlriver, либо с помощью xmlstock.
    Нюанс. Для парсинга из Директа всё же нужно брать Rucaptcha. Это очень дёшево, но без неё никак. Мне в среднем рублей 200 хватает на пару лет, при том, что парсить приходится много и регулярно.
    Ответ написан
    3 комментария
  • Как найти все страницы с дублированным контентом?

    vpetrov
    @vpetrov
    частный SEO-специалист
    Screaming Frof SEO Spider, как уже отметили выше, наотличненько находит не только полные, но и частичные дубли. Можно задать порог сходства, по умолчанию - от 90%.
    Ответ написан
    Комментировать
  • При парсинге сайта в некоторых ссылках выходить ошибка 404 и его не парсить?

    vpetrov
    @vpetrov
    частный SEO-специалист
    Почитайте справку Гугла про софт-404. Очевидно, что сервер отдаёт роботу не совсем то, что отдаст нормальному живому человеку. Когда вы в браузере получаете нормальную страницу, робот может получить обломок.
    Если же речь о реальных 404 – то и здесь стоит оценить системные ресурсы и настройки парсинга. Вероятно, сервер просто не вывозит нагрузки.
    Ответ написан
    Комментировать
  • Как обойти 429 ошибку?

    vpetrov
    @vpetrov
    частный SEO-специалист
    Ключевое слово тут - фингерпринты. Просто менять IP и UA бывает сильно недостаточно, если ресурс подразумевает хоть какую-то защиту.
    Ответ написан