Задать вопрос

Семён @Hitreno

scrapy

Scrapy

Почему яндекс почти сразу банит python-парсер?

Есть следующий парсер яндекс поиска:
P.S. код вообще никак не оптимизирован.

Код

import requests 
from bs4 import BeautifulSoup
import time

PAGES=5 # Сколько страниц парсим?

def get_search(search_str):
    headers_Get = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/536 (KHTML, like Gecko) Chrome/86.0 Safari/536',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'en-US,en;q=0.5',
        'Accept-Encoding': 'gzip, deflate',
        'DNT': '1',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1'
    } # "Заголовки"
    blok_list = search_str.split()
    url_query = '%20'.join(blok_list) # Заменяем пробелы спец. символом
    output = []
    for page in range(PAGES):
        url = 'https://yandex.ru/search/?text=' + url_query + '&p='+str(page)+'&lr=213' # Ссылка для парса
        time_start=time.time() # Время в начале
        r = requests.get(url, headers=headers_Get) # Парсим
        soup = BeautifulSoup(r.text, "html.parser") # Отправляем html в бьютифулсуп
        for searchWrapper in soup.find_all('li', {'class':'serp-item'}): # Ищем все результаты поиска
            url = searchWrapper.find('a', {'class':'i-bem'})["href"] # Берём ссылку из результата
            if url[0]=="h": # Нормальная ли ссылка (http?)
                output.append(url) # Ссылка найдена, беру!
        a=time.time()-time_start # Ожидание, чтобы проходило 3 сек. между запросами
        if 0<a<3 and (page+1)!=PAGES: # Чтобы лишнего не ждать
            time.sleep(3-a)
    return output

print(len(get_search("ух, негодяи! Зачем банить так сразу!?")))

Запускал с домашнего компа в россии, задержка между запросами аж 3 сек... Забанили после 10-ти запросов. Прошу знающих посмотреть - проблема в коде или это яндекс такой хитрый. В первом случае если прокси стоят ок. 15р., то получается 1,5 рубля за запрос?! Выглядит странно.

Вопрос задан более трёх лет назад
495 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Решения вопроса 1

sergey-gornostaev

Сергей Горностаев @sergey-gornostaev

Седой и строгий

Как парсить без бана?

Ответ написан более трёх лет назад

Комментировать

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Можно ли скрапить телеграмм?
- 1 подписчик
- 05 нояб. 2024
- 375 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как найти источник данных этого сайта?
- 1 подписчик
- более года назад
- 260 просмотров
1

ответ
HTML

+2 ещё

Простой
Как вытянуть значение из парсера на c#?
- 1 подписчик
- более года назад
- 167 просмотров
1

ответ
Scrapy

Средний
Как сделать так чтобы в scrapy, парсились дубликаты ссылок? То есть так чтобы каждая спаршенная ссылка, должна создать уникальный файл. Как?
- 1 подписчик
- более двух лет назад
- 121 просмотр
1

ответ
Python

+1 ещё

Простой
Как в Scrapy сохранить результат в JSON при запуске из скрипта?
- 1 подписчик
- более двух лет назад
- 152 просмотра
1

ответ
Scrapy

Простой
Как обратиться к элементу sitemap.xml через Scrapy?
- 1 подписчик
- более двух лет назад
- 39 просмотров
0

ответов
Scrapy

Простой
Почему Scrapy не сохраняет результат?
- 1 подписчик
- более двух лет назад
- 55 просмотров
0

ответов
Scrapy

Простой
Как использовать несколько методов в scrapy?
- 1 подписчик
- более двух лет назад
- 94 просмотра
0

ответов
Scrapy

Простой
Почему при парсинге Озона выдает только первые 4 значения?
- 1 подписчик
- более двух лет назад
- 296 просмотров
0

ответов
WordPress

+2 ещё

Простой
Не загружается файл импорта WooCommerce?
- 1 подписчик
- более трёх лет назад
- 81 просмотр
0

ответов
Показать ещё Загружается…

Project manager / Resource manager

Regex SEO

от 1 500 до 3 000 $

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Менеджер цифровых проектов

Российский Красный Крест • Москва

от 100 000 ₽