Как парсить яндекс картинки?

Question

Mishele123 @Mishele123

Парсинг

Как парсить яндекс картинки?

Есть код:

def downloadImage(text: str, proxy: []) -> set:
    ua = UserAgent()
    arr = set()
    max_count = 1100  # Минимально количество изображений для загрузки
    main_url = "https://yandex.ru/images/search?text=" + text + "&p="
    for a in range(1, 100 + 1): 
        print(main_url + str(a))
        result = requests.get(main_url + str(a), headers=
                            {
                                "User-Agent" : str(ua.random)
                            },
                            proxies={
                                "http" : "http://" + proxy[a - 1]
                            })
            
        soup = BeautifulSoup(result.content, "lxml")
        links = soup.findAll("img", class_ = "serp-item__thumb justifier__thumb")
        print(links)
        for link in links:
            link = link.get("src")
            print(link)
            arr.add(link)

        if len(arr) > max_count:
            break

    return arr

Использую http прокси (бесплатные). Проблема в том, что могу спарсить только 3 страницы, потом минут 5 - 10 не парсится НИЧЕГО. (Вместо ссылок пустые списки) Что делать в данной ситуации?

Вопрос задан более двух лет назад
349 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Mishele123 @Mishele123 Автор вопроса

не, бестолку. Скачивает только 3 страницы и вылазиет капча. Эх, смешная лаба по программированию :)

Написано более двух лет назад
AUser0 @AUser0

Mishele123, решить капчу. Разве не очевидно?

Написано более двух лет назад
Mishele123 @Mishele123 Автор вопроса

AUser0, к сожалению от Яндекса капча очень "смешная"

Написано более двух лет назад
AUser0 @AUser0

Mishele123, так всего-то делов, сохраняешь на диск, глазками решаешь, передаёшь скрипту строку. Фсио! Ну и конечно сам скрипт должен капчу скачивать и решение отправлять, выданные куки - сохранять и использовать.

Написано более двух лет назад
Николай Медведков @Nikola2222

а я капчу отправлял на rucaptcha, там челики за меня ее решали

Написано более двух лет назад